[鸭哥 AI 手记] 2026-05-04: 模型一月一换之后，价值往两头跑

> 鸭哥用 DeepSeek Flash 一个月 100 美元做出 GuideMe.city 北京、Yale 两套城市指南；同一个群里 Semi 团队报 3000 美元一个月。同一周 Codex 周活两周内从 300 万涨到 400 万，Anthropic 联手 Blackstone、Goldman 起 15 亿美元合资公司打企业市场。模型本身正变成按小时耗的电，价值在向两头滑。

懒人包：今天三件事的暗线是同一件，模型从月度更换的耐用品变成了按小时计费的耗材，价值不再属于模型本身。鸭哥那边把它当电池用，调研和提纲交给贵的，DeepSeek Flash 只负责组词，每天十几二十块；群里同时讨论 GLM-5.1 涨价 150% 加周限额、Cursor 包年没人用、Codex 两周加 100 万周活。harness engineering 这个三个月前还没有名字的工种，被 Mitchell Hashimoto 起名、OpenAI 在 2 月公开命名、Anthropic 一个月内连发三篇论文坐实。再往上一层，5 月 4 日 Anthropic 联手 Blackstone、Hellman & Friedman、Goldman Sachs 起 15 亿美元合资公司，明确打 Palantir 风格的 forward deployed engineer 路线，OpenAI 同日跟进同一思路。同一周 Sequoia AI Ascent 上 Sonya Huang 把这个市场叫 10 万亿美元，"软件从来碰不到的服务收入"。模型那一层正在滑下去变成耗材，价值从中间被挤出来，向上落到 FDE 和合资公司，向下沉到个人那一套调度策略里。

鸭哥的 AI 电池：100 美元做出两座城市的导览

群里有人问鸭哥怎么做到一天用 DeepSeek Flash 写作还只花十几二十块。鸭哥讲了一段很具体的工作流：调研和深度思考分给别的模型，把"几万字调研结果"和"提纲"准备好之后，DeepSeek 只负责把内容组织成中文。原话是"knowledge 我帮你查好，提纲我帮你深度思考好，你就当 AI 电池除了组织语言别干任何其他事"。一个月 100 美元，能把"怎么看懂北京"做到 60 个景点，太庙怎么看出祭祀门道、798 屋顶为什么是锯齿形、雍和宫为什么允许用黄瓦，一个一个给出解释（GuideMe.city 北京）。同样的流程当天又做出了 Yale 一座。

这套做法特别说明问题，是因为它正好踩在群里另一段对话的反面。Semi 报"我们一个月 3000 刀"，下面立刻有一串吐槽：哈库那马塔塔"这周末烧了一个 Cursor Ultra 账号"、摔跤吧!金金"Cursor 包年之后用了两个月就没再用了"、若曦在 Kiro 上"上个月用了 160% 没人来找"、谷雨"Codex 压根没消耗啊，我这 Pro 连层皮都没刮掉"。同一群人面对同一批工具，一个月开销可以差出 30 倍。

差距并不在选了哪个工具，在于把工具组织成什么。鸭哥那段话里最关键的一条是分工：DeepSeek Flash"思考深度不行，指令遵循不行，调用工具不行，但写作没有 AI 味"，他清楚地知道每个模型擅长什么、哪一段成本高、哪一段成本低，然后把贵的工序交给贵的模型，便宜的工序交给便宜的模型。DeepSeek V4-Flash 当前定价是每百万 token 0.14 美元输入、0.28 美元输出（Verdent AI），在中文写作这一段刚好踩在"够用"和"成本低两个数量级"的交点上。同一个百万 token 在 Claude Opus 4.7 上是 5 美元和 25 美元（Anthropic 官博）。

群里另一头同时在喊限额。鸭哥自己讲"Claude Code 用得太快了，稍微一搞就满了，就 Codex 量大管饱，开几十个 agent 用量还跟刮痧似的"，又讲"现在 GLM 都有 weekly 血条了，还涨价涨了 150%，不香了"。Z.ai 在 2 月 12 日把 GLM Coding Plan 价格从 40/200/400 RMB 改到 49/149/469 RMB，4 月 12 日海外版从每月 10 美元提到 18 美元，配套加上每周 4M token 的硬封顶（Jiegec 知识库）。同一时段 OpenAI 在 4 月 21 日公布 Codex 周活从 300 万涨到 400 万、两周新增 100 万（OpenAI 官博），Anthropic 4 月 23 日承认算力不够才是限额收紧的原因（MindStudio）。

把这些放到一起，正在变化的不是某个工具的好坏，是模型本身的物种。一个月一换、按小时计价、限额一周一回血，模型已经从"我买了什么"变成"我现在能耗多少"。鸭哥的 100 美元和 Semi 的 3000 美元之间夹的不是付费意愿，是有没有把不同价位的模型拼成一条流水线。

给 Agent 套缰绳这件事，从博客术语变成了 Anthropic 的论文产品线

群里 lencx.me 当天写完一篇文章就发了出来，标题"第一个 Agent 从 Pi 开始"，里面给 harness 下了个定义：凡是让 agent 趋近于目标的工程化手段都是 harness。胥克谦在另一段评论里讲"harness 确实是个硬功夫"、"上下文持久化是 harness 特别重要且核心的技术"，又用 GPT-5.5 加自己的 harness 跑出"每一轮开发全自动执行完成后再次执行一轮复检稳定验收"。马工抛出一句更尖锐的判断："llm 的瓶颈今年就到了，harness 正式成为显学。"

这句话的背景值得展开一层。harness engineering 这个词本身在 2025 年还不存在。Mitchell Hashimoto 在 2026 年初的博客里第一次说"engineer the harness"，定义是"每次发现 agent 犯了错，就花时间工程化一个解决方案让它再也犯不了那个错"（Epsilla blog）。Viv Trivedy 写了篇 Anatomy of an Agent Harness 把它结构化（Addy Osmani 整理）。OpenAI 2 月把"Harness Engineering"做成了官方博客标题，描述的是一个小团队没动手写一行代码就交付了 100 万行生产代码（NxCode 综述）。Anthropic 一个月内连发三篇论文：Effective Harnesses for Long-Running Agents、harness design、Managed Agents（同一来源）。一个新工种用三个月把名字、方法论、产品线全立起来。

为什么是现在。看 comman 在群里那段对 Claude Code 的评论：CC 内置 11 个 tool，read 工具甚至会在每个返回后塞一段 system reminder 提示文件不可信，"生怕弱智模型翻车"；Codex 的压缩 prompt 是"现在要把工作交接给其他人，你总结一下尽可能不丢内容的交接"，"目的性强很多，压缩质量比 CC 体感有提升"。两边的差距已经不在模型本身，而在 agent runtime 那一层，loop 怎么写、context 怎么压、tool 怎么选、错误怎么回滚。Sayalic 那条同期的评论说得更直白："opus 4.6 算是均衡，opus 4.7 全面拉胯。"模型代际更换以"月"为单位发生，每一次都不是单纯的能力提升，而是把上一轮 harness 里某些以为是必需的部件变成累赘。

正因为模型自己在这条节奏里贬值得这么快，使用者唯一可以积累的是模型外面那层。鸭哥昨天的 Cursor Agent Harness 文章推过同一件事：当模型每月一换，唯一能复利的资产是评测体系和 harness 设计。胥克谦同一天在群里那句"几百亿 token 都花在磨刀上了"，落点正是这里。这个工种正在从个人玄学变成有名字、能复用、被 Anthropic 以论文形式打包的工程实践。

Anthropic 这周给 FDE 装上了 15 亿美元

5 月 4 日是这条线的转折点。Anthropic 当天宣布与 Blackstone、Hellman & Friedman、Goldman Sachs 共同成立合资公司专门做企业 AI 服务，估值 15 亿美元，三方各出 3 亿，Apollo、General Atlantic、GIC、Leonard Green、Sequoia 等跟投（TechCrunch）。报道里有一句关键话：合资公司"将采用 Palantir 推广的 forward deployed engineer 模式"。同一天 OpenAI 跟进了一份结构几乎一样的合资计划。这不是一年一度的融资，是 AI 公司亲自下场扮演那个"懂得用模型的人"，并把这份能力当作服务卖出去。

这件事和昨天那篇 FDE 文章接得很顺。当群里 Cresta 的 Head of FDE Jove 加进来一句"现在有 30 个 AI Agent FDE，今年估计要招到 100"，他描述的就是这个新工种的招聘市场。Cresta 公开的 senior FDE 岗位年薪 18.5 万到 23.5 万美元，要求 Python 和 Golang 能写、熟悉 LLM 和 prompt engineering、做过 RAG 系统、能跟客户做技术对接（Jobright.ai）。这个岗位以前叫"解决方案架构师"，但 Cresta 那份 JD 里有一条明确：把客户的业务需求翻译成 AI agent 能跑的配置，并在生产环境里持续优化它。

所以 Anthropic 那笔合资公司的逻辑就清楚了。一边是模型快速贬值的节奏，让客户每个月都要重做一次 harness；一边是企业内部缺少能完成这种翻译工作的人。Sequoia 在同一周的 AI Ascent 2026 上 Sonya Huang 给这个市场起了名字："软件从来碰不到的 10 万亿美元服务收入"，光美国法律服务一项就 4000 亿美元，等同于全球软件总支出（BigGo Finance）。"未来一百年里你能想到的所有事，agent 让你在一百天里做完。"

这句话和鸭哥那一头的 100 美元在同一条逻辑链上。模型本身一个月一换、按小时计费，没有人能靠囤模型获得长期价值。能积累下来的只剩两端。往下，是个人那一层把模型组织起来的工作流；往上，是企业那一层愿意为"翻译人"付的服务费。中间那一层正在被掏空。

也值得知道

白宫考虑给 AI 模型上前置审查：纽约时报 5 月 4 日援引政府官员消息，Trump 政府正在拟一份行政令，成立由科技公司高管和联邦官员组成的工作组，研究新模型在公开发布前是否需要走政府审查程序。上周已经向 Anthropic、Google、OpenAI 三家高管做过吹风，White House 官员对外仍称"在讨论"。这是一个相当大的政策反转，Trump 此前刚撤掉了 Biden 时期的安全评估要求，公开把监管定性为对中国竞争力的威胁。导火索之一据报道是 Anthropic 的 Mythos Preview 模型在 cybersecurity 上的能力（Malay Mail 转 NYT）。

Anthropic 估值传闻冲到 9000 亿美元：TechCrunch 4 月 30 日援引消息源称 Anthropic 新一轮 500 亿美元融资可能在两周内落地，估值 9000 亿美元以上，超过 OpenAI 此前的 8520 亿美元（TechCrunch）。

OpenAI Codex 接 7 家全球系统集成商：4 月 21 日 OpenAI 同步推出 Codex Labs 项目，签下 Accenture、Capgemini、Cognizant、Infosys、TCS 等 7 家全球 GSI，专门做 enterprise 内部的 Codex 部署和 workflow 集成（Economic Times）。这条新闻和 Anthropic 那笔 15 亿美元合资公司同时落地，两家走的是同一条路。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-04: 模型一月一换之后，价值往两头跑

[鸭哥 AI 手记] 2026-05-04: 模型一月一换之后，价值往两头跑

鸭哥的 AI 电池：100 美元做出两座城市的导览

给 Agent 套缰绳这件事，从博客术语变成了 Anthropic 的论文产品线

Anthropic 这周给 FDE 装上了 15 亿美元

也值得知道

[鸭哥 AI 手记] 2026-05-31: 2810亿Token一个人的月账单

[鸭哥 AI 手记] 2026-05-30: 入门岗跌80%，瓶颈换位置了

[鸭哥 AI 手记] 2026-05-29: Pipeline在洗钱