[鸭哥 AI 手记] 2026-05-25: Claude不到4%,AI全自动办公还远


[鸭哥 AI 手记] 2026-05-25: Claude不到4%,AI全自动办公还远

懒人包:Claude Opus 4.7 在北京智源的一场办公大考中只做完了 3.8% 的任务。106 项只过了 4 项。同一天发生的是:Walden Yan 公开修正了自己 10 个月前反对多 Agent 的判断;微软内部弃用了 Claude Code;Uber 的 5000 名工程师四个月烧完全年 AI 预算但 COO 承认无法证明 ROI;而 79% 的企业声称在用 AI Agent,只有 11% 真正跑在生产环境。五件事同时出现在一个窗口,不是巧合。AI 工具快速变强了,但组织真正用起来的能力,还差着好几层。

Claude Opus 4.7 只拿 3.8%:Agent 全自动办公卡在哪

北京智源人工智能研究院(BAAI)最近发布的 SaaS-Bench 测试,把这个问题照得很清楚。他们让 AI Agent 在真实的 SaaS 环境中操作计算机,做财务人员最日常的工作:创建客户、开发票、记录付款、账户对账。106 个任务,从几步到 200 多步不等,每个任务有多个检查点。

最强的 Claude Opus 4.7 按检查点计分拿了 43.9%,但按任务完整通过率只有 3.8%。106 个任务,只完整做完了 4 个。Kimi K2.5 和 Gemini 3.1 Pro 是零(BAAI)。

问题不在模型不够聪明。报告识别了四种失败模式,其中两种特别说明问题。第一种:上游一个权重 3% 的小错误(创建客户时填错类型),导致下游 30% 权重的操作全部挂错实体。Agent 没有一个"我在哪一步犯了错"的全局感知。第二种更隐蔽:Agent 识别出了错误(Step 124 发现日期错了),执行了修改(Step 125 调了日期),但不到页面复查(Step 210 提交时日期还是错的)。它完成了"修改"这个动作,但没有验证修改是否生效。

群里今天蒸馏鸭哥分享了 Walden Yan 的观点,恰好解释了这类失败的根因。Walden 是 Cognition(Devin 的母公司)的工程师,10 个月前以《Don't Build Multi-Agents》引发争论。今年 4 月他发了新文章《Multi-Agents: What's Actually Working》,公开修正了自己的判断(Cognition)。

核心修正:非结构化的多 Agent swarm 仍然不可用。让多个 Agent 并行写入同一份代码、同一套数据,结果比单 Agent 更差。但他找到了一类有效的模式:额外的 Agent 只贡献智能(代码审查、信息搜索、结果验证),不并行修改。审查 Agent 从干净的上下文出发审查 diff,每个 PR 平均发现 2 个 bug,其中 58% 是严重问题。关键的发现是审查 Agent 越不了解编码 Agent 的思考过程,反而越能发现问题。共享上下文会产生一种"谄媚式纠正"(sycophantic correction),Agent 倾向于认同前一个 Agent 的判断而不是质疑。

这个判断放回 SaaS-Bench 的 3.8% 里就很好理解。单个 Agent 在长程任务里出了错,没有一个独立的审查者帮它发现和纠正。一个人干 200 步不出错很难,但这才是 Agent 全自动办公的难度。

Walden 给出的判断框架是一个简单的 R/W 判据:任务以 Read 为主(研究、分析、信息搜集)适合多 Agent;任务以 Write 为主(代码生成、内容创作、文件编辑)应该单线程。Anthropic 的立场跟他一致:Claude Research 用多 Agent 做调研,提升达 90%;Claude Code 坚持单 Agent 编码。SWE-bench 的数据也支持这个判断。单 Agent 的 Claude Code 以 80.8% 排第一,所有多 Agent 系统都在后面(Morph)。

群里荆建杰说了一句话,把这个争论压缩到了最短:"Agent 之间的多一轮交互,不如多跑一次代码。"


账单来了:微软内部弃用 Claude Code

另一个消息指向的问题更实际。5 月中旬,微软开始收回内部 Claude Code 的许可,要求团队在 6 月底前迁移到自家的 GitHub Copilot CLI(The Verge)。微软副总裁 Rajesh Jha 的对外说法是 Copilot CLI 能贴合微软的代码仓库和安全要求,但时间点说明了一件事:6 月 30 日是微软财年最后一天,收回许可刚好在新财年开始前砍掉一笔运营支出。

Claude Code 在微软内部受欢迎的程度超出管理层的预期。六个月的 A/B 测试期间,很多工程师更偏爱 Claude Code 而非 Copilot CLI,微软甚至鼓励设计师和项目经理用它做原型。但现在 Microsoft 2026 Work Trend Index 显示,软件工程团队已经走过了四个人机协作模式的演进阶段,从"人执行每一步"到了"人定义目标、Agent 自主执行"。在这个框架下,微软需要的不是一个更好的第三方工具,而是一个自己能控制方向的基础设施。

成本压力不只在微软。Uber 的 5000 名工程师开放 Claude Code 后,四个月烧完了全年预算。CTO 本人一次两小时的 demo 花了 1200 美元。但更关键的是 COO Andrew Macdonald 在 5 月公开说的一句话:虽然 95% 的工程师每月用 AI 工具、70% 的代码由 AI 生成,但公司无法把这笔投入跟面向消费者的产品改进建立因果关系(AI Weekly)。花了钱,看不到效果。同一天,GitHub 暂停了所有新 Copilot 订阅,从 6 月 1 日起全面转 token 计费。

但成本本身不是死局。DeepSeek 在 5 月 22 日把 V4-Pro 的 75% 折扣永久化,输出价格比 GPT-5.5 低 34 倍(The Decoder)。Cursor Composer 2.5(基于 Kimi K 2.5)和 Qwen 3.7 Max 在 SWE-Bench 上追平了前沿模型,成本只有十分之一。一条新的实践路径正在成型:Cursor 做日常 IDE 功能,Claude Code 做架构重构,Codex 做自主批量任务,DeepSeek 做成本敏感的一切,四工具一工作流,总成本约等于全走 Opus 的 10%。

群里的理想上个月在 DeepSeek 上花了 583 元,跑了 127 亿 token。同样的量在 Claude 上大概是 27 倍的价格。关键不是便宜的模型能不能替代贵的模型,而是大多数任务也许根本不需要最贵的模型。问题从"哪个模型最强"变成了"这个任务配什么模型刚好够用"。

模型选对了,成本压下来了,但还有一层没解决:谁来设计这一整套流程。


缺的不是 AI,是会用 AI 的人

OpenAI 今年 2 月发了一篇工程博客叫《Harness Engineering》,描述了一个实验:3 名工程师没有手写一行代码,通过约 1500 个自动 PR 构建了一个 100 万行代码的产品(OpenAI)。这篇文章在 90 天内催生了一整条内容链:Anthropic 连发三篇 harness 工程论文,ThoughtWorks 在 Martin Fowler 站点发表框架文章,Red Hat 出了实施指南,Hugging Face 的 Philipp Schmid 称之为"2026 年最重要的工程学科"。

但概念热起来的速度远超岗位沉淀的速度。在 LinkedIn 上搜 "harness engineer",出来的还是航空航天和汽车制造里的线束工程师。AI 语境下的 harness engineer 还没有成为一个正式的 job title。它目前被嵌在 AI Platform Engineer、Developer Productivity Engineer 这些已有岗位里。

群里 quitelake 的描述可能是这个角色最具体的画像:"研发团队里需要有一个熟悉软件工程和 harness 体系的人,专门为团队做 AI 脚手架。我这边 AI 网关和 CI/CD 基础设施是和 harness 工程同步推进的,从网关和 CI/CD 的审计日志里能拿到很多可以优化 harness 体系的反馈。"这不是凭空设计的流程,是从机器日志里长出来的。

Stone 提供了一个更底层的视角:"所谓 harness engineering 也是在设计一套控制系统。从这个视角出发,不需要去寻找一套新的思维框架,用控制论的语言就可以。"目标、优化器、传感器,换成 Agent 了,结构没变。

Gartner 的数据提供了一个背景:79% 的企业声称采用了 AI Agent,但只有 11% 在完整生产环境中运行(Gartner)。差距接近 7 倍。EY 和微软在 5 月 21 日宣布了一个五年 10 亿美元以上的联合倡议(Microsoft),帮企业从 AI 试点走向全面部署。EY 自己作为"Client Zero"已经向 40 万员工部署了 Copilot,测出 15% 的生产力提升。但即使是 EY 这种规模的验证,也刚走完从"一个人用 AI"到"一个组织用 AI"的一小步。

群里摔跤吧!金金有一个直觉判断:"我们做这些有一个天然的劣势,就是我们定的任何规范、协议,大模型都没有训练过。这些厂商自己做的话,可以自己训练,效果比我们好得多。"这话指出了 harness 工程最深的约束:今天能跑通的 harness 设计,明天就可能被厂商原生支持替代。你在控制系统层面做的创新,随时可能被平台层的版本更新收编。


也值得知道

GPT-5.6 canary 信号被捕获:开发者在 OpenAI Codex 后端日志中发现了未发布的 GPT-5.6 模型,上下文窗口 150 万 token,比 GPT-5.5 提升约 43%。Polymarket 上 7 月发布的概率超过 60%(AIBase)。

OpenAI 模型独立否证了 80 年数学猜想:一个通用推理模型否证了 Erdős 1946 年提出的平面单位距离猜想,Fields 奖得主 Tim Gowers 评价会"毫不犹豫推荐到 Annals of Mathematics 发表"(OpenAI)。

Nvidia 单季营收 $816 亿创纪录:CEO Huang 称 AI 是"五层蛋糕"(能源、芯片、基础设施、模型、应用),需求呈抛物线增长(CNBC)。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:daily.yage.ai

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-26: AI VP说:你的Harness是脚手架 懒人包:昨天,一位 Microsoft AI 的技术领导者告诉群友 LangSensei:你现在写的 harness 全是 throwaway work,AI 总有一天自己会学会。同一天,鸭哥在发文章讲 Skills 积累才是护城河。两个人的判断指向同一个问题,但答案刚好相反:当 AI 本身在进化时,你建在上面的东西到底能撑多久?另一条线,群里在认真讨论 OPC 还做不做得下去——2025 年 12 月之后被判断为"九死一生",但真在做的人发现,AI 拉平技术执行的同时,把信任和判断推成了真正的瓶颈。 你赌的是 AI 会从哪个方向进化 LangSensei 在群里分享了和一位 Microsoft AI 技术负责人的对话,开头就很直白。他之前一直觉得应该做一个最好用的 harness,驾驭 AI 做出更好的产品。大佬说这是错的——"AI 跟人一样,会进化。你要 harness 一个会进化的东西,本质上是不可能的。" 大佬给的替代方案更像训练模型:搭一个最简单的脚手架,提供成熟的...

[鸭哥 AI 手记] 2026-05-24: 83%的PR被关,规则在重写 > Flask 作者 Armin Ronacher 的 Pi 项目过去 90 天收到 3145 条外部贡献,83% 被自动关闭。714 个 PR 里只有 60 个最终合入。他写的不是抱怨贴。文章里抛出的那句话更尖锐:标准已经改了,只是没人通知你。同一天,美国三十多个州的居民在用投票告诉科技公司同一件事。 懒人包:Ronacher 的数据说明了一个简单的逻辑:AI 没有让谁变差,AI 放大了你本来就有的模式。会判断的人被放大了判断力,不会的人被放大了错误。当 Ronacher 的 tracker 里 83% 的贡献被拒、Virginia 居民对数据中心支持率从 62% 跌到 23%,两个信号指向的其实是同一件事——旧标准撑不住新现实了。另外,一篇 2026 年提交 NeurIPS 的论文发现,大多数 RAG 场景下最简单的聚类方案就够用,这个判断和前两件事共享同一个底层逻辑:什么时候不补就够用,比怎么补更快更有用。 83% 的 PR 被关掉,尺子换了 鸭哥昨天在群里分享了他刚写的文章。《你编程十年,但在...

[鸭哥 AI 手记] 2026-05-23: 300倍价差,AI市场在分裂 > 5 月 20 日那天,Jefferies 发布了一份研报:在 OpenRouter 上,中国 Top 9 模型一周处理了 4.37 万亿 token,美国模型 4.98 万亿。差距从"中国追赶到一半"缩小到了几乎持平。同一周,Uber 确认了一件事:5000 名工程师用 Claude Code,四个月烧完了全年 AI 预算。最贵的模型和最便宜的模型之间差了 300 倍。这 300 倍不是 bug,是市场正在分裂成两个行业的结构信号。 懒人包:AI API 市场的最低端和最高端之间差了 300 倍,而且差距在以不对称的方式扩大——低端一年降 40 倍,高端三年只降 4 倍。Uber 5000 名工程师用 Claude Code 四个月烧完全年预算,同期 DeepSeek 把旗舰模型永久降价 75%。同一天,Martin Fowler 公开承认他不知道编程的未来是什么——当行业最受尊敬的架构师停止做预测时,变化的速率已经超过了人类建立心智模型的能力。更深处,群里在讨论 AI...