[鸭哥 AI 手记] 2026-05-04: 模型一月一换之后,价值往两头跑


[鸭哥 AI 手记] 2026-05-04: 模型一月一换之后,价值往两头跑

> 鸭哥用 DeepSeek Flash 一个月 100 美元做出 GuideMe.city 北京、Yale 两套城市指南;同一个群里 Semi 团队报 3000 美元一个月。同一周 Codex 周活两周内从 300 万涨到 400 万,Anthropic 联手 Blackstone、Goldman 起 15 亿美元合资公司打企业市场。模型本身正变成按小时耗的电,价值在向两头滑。

懒人包:今天三件事的暗线是同一件,模型从月度更换的耐用品变成了按小时计费的耗材,价值不再属于模型本身。鸭哥那边把它当电池用,调研和提纲交给贵的,DeepSeek Flash 只负责组词,每天十几二十块;群里同时讨论 GLM-5.1 涨价 150% 加周限额、Cursor 包年没人用、Codex 两周加 100 万周活。harness engineering 这个三个月前还没有名字的工种,被 Mitchell Hashimoto 起名、OpenAI 在 2 月公开命名、Anthropic 一个月内连发三篇论文坐实。再往上一层,5 月 4 日 Anthropic 联手 Blackstone、Hellman & Friedman、Goldman Sachs 起 15 亿美元合资公司,明确打 Palantir 风格的 forward deployed engineer 路线,OpenAI 同日跟进同一思路。同一周 Sequoia AI Ascent 上 Sonya Huang 把这个市场叫 10 万亿美元,"软件从来碰不到的服务收入"。模型那一层正在滑下去变成耗材,价值从中间被挤出来,向上落到 FDE 和合资公司,向下沉到个人那一套调度策略里。

鸭哥的 AI 电池:100 美元做出两座城市的导览

群里有人问鸭哥怎么做到一天用 DeepSeek Flash 写作还只花十几二十块。鸭哥讲了一段很具体的工作流:调研和深度思考分给别的模型,把"几万字调研结果"和"提纲"准备好之后,DeepSeek 只负责把内容组织成中文。原话是"knowledge 我帮你查好,提纲我帮你深度思考好,你就当 AI 电池除了组织语言别干任何其他事"。一个月 100 美元,能把"怎么看懂北京"做到 60 个景点,太庙怎么看出祭祀门道、798 屋顶为什么是锯齿形、雍和宫为什么允许用黄瓦,一个一个给出解释(GuideMe.city 北京)。同样的流程当天又做出了 Yale 一座

这套做法特别说明问题,是因为它正好踩在群里另一段对话的反面。Semi 报"我们一个月 3000 刀",下面立刻有一串吐槽:哈库那马塔塔"这周末烧了一个 Cursor Ultra 账号"、摔跤吧!金金"Cursor 包年之后用了两个月就没再用了"、若曦在 Kiro 上"上个月用了 160% 没人来找"、谷雨"Codex 压根没消耗啊,我这 Pro 连层皮都没刮掉"。同一群人面对同一批工具,一个月开销可以差出 30 倍。

差距并不在选了哪个工具,在于把工具组织成什么。鸭哥那段话里最关键的一条是分工:DeepSeek Flash"思考深度不行,指令遵循不行,调用工具不行,但写作没有 AI 味",他清楚地知道每个模型擅长什么、哪一段成本高、哪一段成本低,然后把贵的工序交给贵的模型,便宜的工序交给便宜的模型。DeepSeek V4-Flash 当前定价是每百万 token 0.14 美元输入、0.28 美元输出(Verdent AI),在中文写作这一段刚好踩在"够用"和"成本低两个数量级"的交点上。同一个百万 token 在 Claude Opus 4.7 上是 5 美元和 25 美元(Anthropic 官博)。

群里另一头同时在喊限额。鸭哥自己讲"Claude Code 用得太快了,稍微一搞就满了,就 Codex 量大管饱,开几十个 agent 用量还跟刮痧似的",又讲"现在 GLM 都有 weekly 血条了,还涨价涨了 150%,不香了"。Z.ai 在 2 月 12 日把 GLM Coding Plan 价格从 40/200/400 RMB 改到 49/149/469 RMB,4 月 12 日海外版从每月 10 美元提到 18 美元,配套加上每周 4M token 的硬封顶(Jiegec 知识库)。同一时段 OpenAI 在 4 月 21 日公布 Codex 周活从 300 万涨到 400 万、两周新增 100 万(OpenAI 官博),Anthropic 4 月 23 日承认算力不够才是限额收紧的原因(MindStudio)。

把这些放到一起,正在变化的不是某个工具的好坏,是模型本身的物种。一个月一换、按小时计价、限额一周一回血,模型已经从"我买了什么"变成"我现在能耗多少"。鸭哥的 100 美元和 Semi 的 3000 美元之间夹的不是付费意愿,是有没有把不同价位的模型拼成一条流水线。


给 Agent 套缰绳这件事,从博客术语变成了 Anthropic 的论文产品线

群里 lencx.me 当天写完一篇文章就发了出来,标题"第一个 Agent 从 Pi 开始",里面给 harness 下了个定义:凡是让 agent 趋近于目标的工程化手段都是 harness。胥克谦在另一段评论里讲"harness 确实是个硬功夫"、"上下文持久化是 harness 特别重要且核心的技术",又用 GPT-5.5 加自己的 harness 跑出"每一轮开发全自动执行完成后再次执行一轮复检稳定验收"。马工抛出一句更尖锐的判断:"llm 的瓶颈今年就到了,harness 正式成为显学。"

这句话的背景值得展开一层。harness engineering 这个词本身在 2025 年还不存在。Mitchell Hashimoto 在 2026 年初的博客里第一次说"engineer the harness",定义是"每次发现 agent 犯了错,就花时间工程化一个解决方案让它再也犯不了那个错"(Epsilla blog)。Viv Trivedy 写了篇 Anatomy of an Agent Harness 把它结构化(Addy Osmani 整理)。OpenAI 2 月把"Harness Engineering"做成了官方博客标题,描述的是一个小团队没动手写一行代码就交付了 100 万行生产代码(NxCode 综述)。Anthropic 一个月内连发三篇论文:Effective Harnesses for Long-Running Agents、harness design、Managed Agents(同一来源)。一个新工种用三个月把名字、方法论、产品线全立起来。

为什么是现在。看 comman 在群里那段对 Claude Code 的评论:CC 内置 11 个 tool,read 工具甚至会在每个返回后塞一段 system reminder 提示文件不可信,"生怕弱智模型翻车";Codex 的压缩 prompt 是"现在要把工作交接给其他人,你总结一下尽可能不丢内容的交接","目的性强很多,压缩质量比 CC 体感有提升"。两边的差距已经不在模型本身,而在 agent runtime 那一层,loop 怎么写、context 怎么压、tool 怎么选、错误怎么回滚。Sayalic 那条同期的评论说得更直白:"opus 4.6 算是均衡,opus 4.7 全面拉胯。"模型代际更换以"月"为单位发生,每一次都不是单纯的能力提升,而是把上一轮 harness 里某些以为是必需的部件变成累赘。

正因为模型自己在这条节奏里贬值得这么快,使用者唯一可以积累的是模型外面那层。鸭哥昨天的 Cursor Agent Harness 文章 推过同一件事:当模型每月一换,唯一能复利的资产是评测体系和 harness 设计。胥克谦同一天在群里那句"几百亿 token 都花在磨刀上了",落点正是这里。这个工种正在从个人玄学变成有名字、能复用、被 Anthropic 以论文形式打包的工程实践。


Anthropic 这周给 FDE 装上了 15 亿美元

5 月 4 日是这条线的转折点。Anthropic 当天宣布与 Blackstone、Hellman & Friedman、Goldman Sachs 共同成立合资公司专门做企业 AI 服务,估值 15 亿美元,三方各出 3 亿,Apollo、General Atlantic、GIC、Leonard Green、Sequoia 等跟投(TechCrunch)。报道里有一句关键话:合资公司"将采用 Palantir 推广的 forward deployed engineer 模式"。同一天 OpenAI 跟进了一份结构几乎一样的合资计划。这不是一年一度的融资,是 AI 公司亲自下场扮演那个"懂得用模型的人",并把这份能力当作服务卖出去。

这件事和昨天那篇 FDE 文章接得很顺。当群里 Cresta 的 Head of FDE Jove 加进来一句"现在有 30 个 AI Agent FDE,今年估计要招到 100",他描述的就是这个新工种的招聘市场。Cresta 公开的 senior FDE 岗位年薪 18.5 万到 23.5 万美元,要求 Python 和 Golang 能写、熟悉 LLM 和 prompt engineering、做过 RAG 系统、能跟客户做技术对接(Jobright.ai)。这个岗位以前叫"解决方案架构师",但 Cresta 那份 JD 里有一条明确:把客户的业务需求翻译成 AI agent 能跑的配置,并在生产环境里持续优化它。

所以 Anthropic 那笔合资公司的逻辑就清楚了。一边是模型快速贬值的节奏,让客户每个月都要重做一次 harness;一边是企业内部缺少能完成这种翻译工作的人。Sequoia 在同一周的 AI Ascent 2026 上 Sonya Huang 给这个市场起了名字:"软件从来碰不到的 10 万亿美元服务收入",光美国法律服务一项就 4000 亿美元,等同于全球软件总支出(BigGo Finance)。"未来一百年里你能想到的所有事,agent 让你在一百天里做完。"

这句话和鸭哥那一头的 100 美元在同一条逻辑链上。模型本身一个月一换、按小时计费,没有人能靠囤模型获得长期价值。能积累下来的只剩两端。往下,是个人那一层把模型组织起来的工作流;往上,是企业那一层愿意为"翻译人"付的服务费。中间那一层正在被掏空。


也值得知道

白宫考虑给 AI 模型上前置审查:纽约时报 5 月 4 日援引政府官员消息,Trump 政府正在拟一份行政令,成立由科技公司高管和联邦官员组成的工作组,研究新模型在公开发布前是否需要走政府审查程序。上周已经向 Anthropic、Google、OpenAI 三家高管做过吹风,White House 官员对外仍称"在讨论"。这是一个相当大的政策反转,Trump 此前刚撤掉了 Biden 时期的安全评估要求,公开把监管定性为对中国竞争力的威胁。导火索之一据报道是 Anthropic 的 Mythos Preview 模型在 cybersecurity 上的能力(Malay Mail 转 NYT)。

Anthropic 估值传闻冲到 9000 亿美元:TechCrunch 4 月 30 日援引消息源称 Anthropic 新一轮 500 亿美元融资可能在两周内落地,估值 9000 亿美元以上,超过 OpenAI 此前的 8520 亿美元(TechCrunch)。

OpenAI Codex 接 7 家全球系统集成商:4 月 21 日 OpenAI 同步推出 Codex Labs 项目,签下 Accenture、Capgemini、Cognizant、Infosys、TCS 等 7 家全球 GSI,专门做 enterprise 内部的 Codex 部署和 workflow 集成(Economic Times)。这条新闻和 Anthropic 那笔 15 亿美元合资公司同时落地,两家走的是同一条路。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-31: 2810亿Token一个人的月账单 懒人包:Meta 内部一个"Token Legend"员工,一个月烧掉了 2810 亿个 Token。这件事曝光后 Meta 火速关闭了内部排行榜,Amazon 也限制了团队级 AI 用量数据的可见性。Financial Times 把这波操作叫做"tokenmaxxing"——企业为了证明 AI 基础设施投资值得,鼓励员工尽可能多地用 AI,员工照做,结果账单爆炸。过去几个月"AI 帮企业省钱"的叙事正在被"AI 本身成了新成本中心"的现实取代。群里聊了两件事正好踩在这条线上:一是用降级模型加编排替代强模型裸用的实践方法,二是在 token 成本吃掉 SaaS 毛利后,软件公司的估值逻辑该怎么重新算。 Harness Engineering:流程比模型更能决定质量 群里 Nick 和杨正武分享了一套用 GLM 稳定交付开发任务的方法论。杨正武从 GLM 4.7 开始就一直主力用它,Nick 用 BMAD 走完整 V 流程。linhow 把他们俩的实践总结成四步:任务颗粒度做小、编排做明确、Spec...

[鸭哥 AI 手记] 2026-05-30: 入门岗跌80%,瓶颈换位置了 懒人包:Forbes 昨天报道,哈佛研究者梳理了 28000 家美国企业十年数据,发现在采用 AI 的公司里,入门级招聘自 2023 年以来每季度暴跌约 80%。鸭哥同一天发布的 AI 岗位指南正面回答了这个现象:不是岗位消失了,是岗位的定价维度从「你会做什么」变成了「你能判断什么」。同一天讨论的另一件事指向同一个方向:SGLang Omni 团队公开了他们做推理系统设计决策的完整过程,里面最有价值的部分不是架构方案本身,而是他们选择分类轴的方式——按计算特性切,不按模态切。入门岗的事和推理系统的事共享同一种判断:当执行层的差异趋于收敛,所有剩余差距都落在谁能把问题分得更正确、判断得更好。 入门岗的估值逻辑变了 鸭哥昨天在 yage.ai 发了一篇 AI 行业的岗位、技能与打怪路线,开头就写了一个被很多人忽略的判断:AI 不是一条新跑道,是加速器。增长最快的不是「AI 工程师」这个新 title,而是现有岗位被 AI 重新定价。 在这篇文章发出的同一天,Forbes 报道了哈佛大学 Hosseini 和...

[鸭哥 AI 手记] 2026-05-29: Pipeline在洗钱 懒人包:鸭哥昨天把多智能体系统的失败机制比作洗钱。不是模型不行,是错误假设经过多层 agent 传递后不但没被拦截,反而因为自洽性和交叉引用变得越来越可信。这篇文章在群里引发了对 Dynamic Workflow 到底用在哪的激烈讨论。另一条线上,鸭哥的短剧调研发现了一个平行结构:AI 把生产成本砍到零之后,省下来的钱全部流进了平台广告系统,分账比例被砍到二十分之一。这两件事共享同一个判断:加层不一定加安全,降本不一定降权。 你的 Pipeline 在洗钱 一群人在讨论 agent 工作流的时候,群友 challen 吐槽了一句:"大几十个 agent 一起发动,什么 token 能挡得住这种薅法儿,鸭哥你写篇文章说一下这是过度设计。"他试了一个 workflow 功能,想读读代码画画架构,结果系统派出了远超需要的 agent 数量。群友陈然接了一句:"解决了 token 用的太少的问题。" 鸭哥昨天发了一篇文章,没有讨论 agent 数量的问题,而是指出了一个更隐蔽的机制。多智能体 pipeline...