[鸭哥 AI 手记] 2026-04-26


[鸭哥 AI 手记] 2026-04-26

> 今天三件事的暗线是同一件事:AI 把代码生成做成了商品,瓶颈搬到了它后面那一层。能把产能装进去的 harness、能在迭代里维持秩序的全局观、能在每周变三次的模型价格里做选择的判断,这些承担产能的能力,正在变成新的稀缺品。

懒人包:群里一位群友披露他用一套 harness 把 11 个会用 AI 的兼职研发包成计件流水线,100 元/需求、25 元/bug,3 个 50 万的项目实际研发成本压到 2-3 万;同一天马工那篇《全员 AI 提效没什么用》在群里被反复传阅,指向同一件事的反面:没有 harness 兜着,AI 提效就没有出口。模型层一周内连出三个反差信号:GPT-5.5 单次 API 价比 5.4 涨一倍、Plus 5h 配额经常一个任务就用完;Opus 4.7 同价但 tokenizer 换了,实际成本高 1-1.35 倍;DeepSeek V4-Pro 缓存命中价 4 月 26 日官方再砍到 0.025 元/M;GLM 一个月内第二次撕毁老套餐合同。Vibe coding 的代价开始浮现,群里和外面同时在说跑久了进入不可维护态,刘智聪给的解法很具体:每晚定时跑两个 review 提示词。

100 元一个需求的流水线,藏着今年最被低估的护城河

群里一位 ID 叫"贫穷的微笑"的群友披露了一组数据。他自己搭了一套 harness,签了 11 个会用 AI 的兼职研发,按 100 元/需求、25 元/bug 计件结算,3 个原本报价 50 万的项目实际研发成本跑到 2-3 万。他自己解释这套模式的硬条件只有一个:"要一个 harness 来保底,因为你要修你的 harness。"招人渠道也直白:"你不要老进老板圈子,进研发小伙子圈子,喜欢用 AI 的、但打工的研发小伙子圈子。"

群里立刻有反对声。胥克谦说模型的可控性远远没到这水平;MyBricks 说现在的 harness 总体处于作坊的初级阶段;多喝热水说自己已经放弃这条路,现在都是选基础素质感觉不错的刚毕业的小孩自己来培养。Jun 给出最具体的反例:他给品牌部 5 个 180/天的实习生跟了一个月,想用 AI 提效,最后放弃。同一天,群友马工发了一篇文章《全员 AI 提效没什么用》,论点是单纯让员工用 AI 在大组织里几乎不产生增量。

这两面合起来看,结论才完整。贫穷的微笑赚到的钱,不是因为他的研发更便宜,也不是因为模型更强。市场上做小程序页面的零工价格本来就在 100-200 元一页这个区间,他比别人便宜的部分,是 50 万项目里"找需求、拆任务、对验收、修 bug"这一段被 harness 接住了,所以兼职研发干完一件就走,不需要他全程盯着判断。Jun 那个失败案例的失败点也在同一个位置:5 个实习生加 AI 不等于 5 个员工的产出,因为没有那条把"想清楚-写出来-验证完"绑成一条线的 harness。

把镜头拉远一点,这件事和今年 AI 软件外包行业的整体走向是一致的。市场上中国的 AI 自由职业者时薪在 30-50 美元区间,单点小任务(标数据、写一个 API wrapper、出一个原型)报价 5-10 美元一件。这些数字一直存在,和 AI 没什么关系。AI 真正改变的是上面那一层:谁能把这种零工的产能装进一个能对外报价 50 万的项目里,谁就拿到了今年最被低估的差价。Windsurf 2026 年 3 月起对 Pro 套餐收紧到 daily/weekly 配额(2026 套餐对比),群友贫穷的微笑也提到现在 windsurf 不准注册新号了,下游的小作坊会先撞到这个上限,但他们不缺干活的人,缺的是 harness。


一周里三家模型实验室在和自己的成本曲线打架

同一天群里关于 GPT-5.5、Opus 4.7、DeepSeek V4 的对比讨论,把当前模型层的真实成本曲线摆出来了。家林说"我用 5.5,连一个小时都用不了",黄一凯说"plus 跑一个半小时 5.5 xhigh 才 5h limit",胥克谦核算下来 GPT-5.5 综合成本是 5.4 的 3 到 5 倍。Sam Altman 4 月 23 日给出的官方价是 input $5/M、output $30/M,Pro 变体 $30/$180(OpenAI 社区)。Plus 套餐里 5.4 的 5 小时配额是 20-100 messages 不等(LaoZhang AI),任务一复杂就触顶。

Anthropic 这边走的是另一条路。Opus 4.7 比 4.6 在 SWE-bench Verified 上从 80% 涨到 87.6%,账面 sticker price 没变;但官方在 4 月 16 日发布时换了 tokenizer,同样的代码 prompt 实际 token 数会多 1.0-1.35 倍,所以每个 prompt 真实成本上调了大约 5-35%(LLM Statskarozieminski 测评)。群里 JJMoe 反馈 Opus 4.7 比 4.6 用 tokens 少一些,做 plan 更快;但黄一凯吐槽 4.7 写作不如 4.6,JJMoe 直接说看鸭哥的 link,4.7 写作还不如 DeepSeek V4 了。账面价不变,实际成本和能力分布都在悄悄换位。

DeepSeek 选择了相反方向。4 月 26 日 DeepSeek 官方宣布全系 API 输入缓存命中价格降到原价 1/10,V4-Pro 叠加 5 月 5 日前的 2.5 折后实际是 0.025 元/M,V4-Flash 是 0.02 元/M;缓存未命中部分 input 12 元降到 3 元、output 24 元降到 6 元(新浪财经IT 之家)。理想在群里给的实战体感是比昨天 2.5 折后还低了 8 分之 7。群友 AI Vibe Coding 接着说 V4 现在在小龙虾里面跑长任务稳定下来了。

第四个信号来自 GLM。多喝热水一句"智普 1 个月内违约两次"在群里没几个人接,但去 v2ex 上一查,3 月份智谱用"老用户专属福利"诱导用户付 1500 元开通自动续费、承诺长期续订,4 月 30 日强制把这批用户迁移到带周使用额度限制的新套餐(V2EX 1207776)。Nick 看到补偿公告时还说现有套餐不受限,但实际上是续订方式被改了。

四件事拼起来是同一张图。OpenAI 涨价的同时压缩 Plus 配额,Anthropic 偷偷换 tokenizer,DeepSeek 用缓存命中把存量场景打到地板价,GLM 用违约把成本风险转嫁给老用户。每家都在账面价和真实成本之间动手脚,因为 frontier 模型自己也在和算力供给打架。Elad Gil 4 月 26 日的判断是 HBM 内存供给会把 GPU 出货卡到至少 2028 年(Forbes)。所谓模型 commodity 化是用户视角的简化,从供给侧看,每家都在用不同手段挤压同一道窄门。对 builder 来说,做今年的成本表已经不能假定一个月内不会被刷新。


Vibe coding 跑久了进入不可维护态,刘智聪给了一个具体解法

群友上宣昨晚发了一篇文章,论点是 vibe coding 里引入非必要复杂度的情况会比较严重,随着迭代次数的增加,很容易进入一个不可维护的状态(公众号原文)。群里立刻分成两边。陈宇 Alex 反驳也可以让它经常处理技术负债;刘智聪给了更精确的诊断:现在的 vibe coding 工具链还不成熟,导致 Agent 没有全局观,一个没有全局观但又努力的工程师,就会为了实现功能反复造轮子。

这个判断在群外也有数据托住。Reddit 上 r/vibecoding 板块一条热帖标题就是「vibe coded for 6 months. my codebase is a disaster」;Softr 2026 年 4 月的总结直接把这种代码叫做 legacy code from day one,意思是从产生那一刻起就是别人难以接手的遗留资产(Softr 报告)。Appy Pie 同期建议引入 20% rule,每个开发周期里强制留 20% 时间做重构(Appy Pie)。AX 当晚就在群里跑了一个反例:让一个 codex 检查 cc 写的 8 万行 PR,"已经烧了 6k",等于又花了和原项目同量级的钱去做事后审计。

刘智聪后面给的具体解法可以照着抄。第一步,把人能看懂的领域需求先分解成更短更明确的模块需求,让 agent 在更小的上下文里完成探索和实现,需求短反而容易做对。第二步,每天晚上定时跑两个基础提示词:"review 现有实现,提取公共实现,减少代码量"和"review 现有实现,更新架构设计文档"。前者负责压缩冗余,后者负责给后面写新代码的 agent 留一份准确的全局观。

谷雨当天还讲了一个段子,但其实是同一个问题。他让 AI 给 PR 上传截图,gh CLI 不支持,AI 就直接把截图传到他个人网站上去了;后来又跑去 codex repo 给别人 file bug 去了(相关 issue)。在缺少全局观的情况下,agent 每次都在用局部正确的方案做事,每次都会跑出一个新的副作用。鸭哥下午也参与了这条讨论,他给的更早版本的解法是 critique 文档加 checklist:"agent 你根据给定的 critique 文档,一个个做,做完了打个勾。等确保全部钩完了再停下来。"刘智聪的"每晚定时跑"和这个 checklist 思路是同构的,都是把全局观这件 agent 自己做不好的事,从模型层挪到 harness 层去解。


也值得知道

23 岁素人用 ChatGPT 解掉一个 60 年没人解的素数猜想:Liam Price 没受过高等数学训练,用 GPT-5.4 Pro 给出 Erdős primitive sets 家族下一个开放问题的初稿证明,Stanford 数学家 Jared Lichtman 帮他打磨成型。Lichtman 自己花了 7 年才证完 Erdős 的原版猜想,这次 AI 跑出关键一步只用了 80 分钟。陶哲轩对此的评论是以前看过这个问题的人,是在第一步就集体走偏了(Scientific AmericanForbes)。一个具体的小细节:Price 在被人送 ChatGPT Pro 订阅之前,用的是免费版。

Sony AI 的乒乓球机器人 Ace 击败顶级人类选手:4 月 22 日 Sony AI 公开 Project Ace,这是首个在正式比赛规则下击败精英和职业级人类选手的乒乓球机器人,研究负责人 Peter Stone 强调它能在高速变化的真实环境里同时做感知、推理、行动,开了一类新的物理世界应用窗口(Japan TimesSony AI 博客)。

Meta 5 月 20 日起裁员 8000 人,2026 年 AI capex 翻倍至 $115-135B:Meta 确认这一轮裁员占员工总数 10%,同时撤掉 6000 个未填补的岗位,扎克伯格把今年 AI 资本开支推到 1150-1350 亿美元区间(Asanify 整理)。和 Google 4 月 24 日承诺给 Anthropic 的 $40B 投资($10B 现金 + 5GW 算力,2027 年起交付)放在一起看,资本正在向少数几条算力线集中(CNBC)。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-27 > 今天三件事都在重画同一条线:AI 系统能跑多远,主要取决于它被允许穿过谁的边界。Manus 撞上的是国家边界,企业 agent 撞上的是公司内网,DeepSeek V4 撞上的是芯片供应链。能力越强的玩家,被边界绊住得越早。 懒人包:发改委今天否决了 Meta 用约 $2B 整体收购 Manus 的交易,并要求撤销,是 2021 年《外商投资安全审查办法》生效以来第一个公开走完"禁止+撤销"流程的案例;Manus 同时也是中国 AI 公司被全球大厂整体收购唯一走到 closing 的一家,两个"第一"是同一家。鸭哥昨天的长文 两个"第一"是同一家:Manus、Meta 与一次没有先例的否决 把这件事放进开曼 vs 新加坡两条离岸路径的对照里讲透。同一天群里围着 OpenAI 那条"永不下班的 AI 员工"宣传转发,马工一句"不能跑在本地电脑的 agent,没毛用"把热度按下去;鸭哥补一句"本地化必须驻场工程师支持",把硅谷正在偷偷扩招的 Forward Deployed Engineer 这条线点出来了。 走得最远的人最先撞上规则...

[鸭哥 AI 手记] 2026-04-25 > 今天三件事都是同一种动作的三种表演:表面上让出一层,底下抢另一层的留存。Google 把 PyTorch 一等公民让出来、把 5GW 算力让给 Anthropic;Anthropic 在自家桌面 app 里让你跑 GPT 和 Gemini,连订阅费和数据都不要;同期它发的 Project Deal 实验里,Opus 用户系统性把 Haiku 用户的钱拿走,对方一点感觉都没有。三件事合起来才能看出这个春天 agent 基础设施的护城河正在重新分层。 懒人包:鸭哥昨天发了三篇 AI 长文。一篇 Cloud Next 2026 之后 TPU 与 CUDA 的攻防 把 8t/8i 拆分、TorchTPU、Google 投 Anthropic 最高 $40B 这三件事拼成一张图,主结论是 CUDA 的松动主要在推理而不是训练,杠杆是 vLLM 而不是 PyTorch;一篇 Anthropic 让 Cowork 跑别家模型的反常让步 把 Anthropic...

[鸭哥 AI 手记] 2026-04-24 > 当执行变得免费,价值会往哪里搬。这是今天三件事共同回答的问题:Skill 卖不出钱、四家 frontier 模型在不同任务上各占一段、PM 的工作核心从前置判断挪到回路速度。表面是三个独立话题,底下是同一张迁徙图。 懒人包:鸭哥昨天发了三篇 AI 长文,一篇说 Skill 是天生带自杀基因的产品,把价值创造和价值捕获被分开这件事讲穿;一篇 GPT-5.5 / Opus 4.7 / DeepSeek V4 派发指南 讲清楚为什么 2026 年春没有任何一个模型能在所有任务里做到最优;一篇 从 Cat Wu 访谈看 PM 的职业道路 讨论工程执行变便宜以后 PM 该往哪里走。同一天 DeepSeek V4 周五发布、Google 宣布再投 Anthropic 400 亿美元、Anthropic 公开 Claude Code 一个月质量滑坡的 postmortem,三件外部事件正好分别落到这三篇文章的论证线里。 Skill 没有卖钱的位置,因为执行不发生在你这里 群里下午开了一场关于 Skill 商业化的长辩论。马工昨天那篇 Agent...