[鸭哥 AI 手记] 2026-05-25: Claude不到4%，AI全自动办公还远

懒人包：Claude Opus 4.7 在北京智源的一场办公大考中只做完了 3.8% 的任务。106 项只过了 4 项。同一天发生的是：Walden Yan 公开修正了自己 10 个月前反对多 Agent 的判断；微软内部弃用了 Claude Code；Uber 的 5000 名工程师四个月烧完全年 AI 预算但 COO 承认无法证明 ROI；而 79% 的企业声称在用 AI Agent，只有 11% 真正跑在生产环境。五件事同时出现在一个窗口，不是巧合。AI 工具快速变强了，但组织真正用起来的能力，还差着好几层。

Claude Opus 4.7 只拿 3.8%：Agent 全自动办公卡在哪

北京智源人工智能研究院（BAAI）最近发布的 SaaS-Bench 测试，把这个问题照得很清楚。他们让 AI Agent 在真实的 SaaS 环境中操作计算机，做财务人员最日常的工作：创建客户、开发票、记录付款、账户对账。106 个任务，从几步到 200 多步不等，每个任务有多个检查点。

最强的 Claude Opus 4.7 按检查点计分拿了 43.9%，但按任务完整通过率只有 3.8%。106 个任务，只完整做完了 4 个。Kimi K2.5 和 Gemini 3.1 Pro 是零（BAAI）。

问题不在模型不够聪明。报告识别了四种失败模式，其中两种特别说明问题。第一种：上游一个权重 3% 的小错误（创建客户时填错类型），导致下游 30% 权重的操作全部挂错实体。Agent 没有一个"我在哪一步犯了错"的全局感知。第二种更隐蔽：Agent 识别出了错误（Step 124 发现日期错了），执行了修改（Step 125 调了日期），但不到页面复查（Step 210 提交时日期还是错的）。它完成了"修改"这个动作，但没有验证修改是否生效。

群里今天蒸馏鸭哥分享了 Walden Yan 的观点，恰好解释了这类失败的根因。Walden 是 Cognition（Devin 的母公司）的工程师，10 个月前以《Don't Build Multi-Agents》引发争论。今年 4 月他发了新文章《Multi-Agents: What's Actually Working》，公开修正了自己的判断（Cognition）。

核心修正：非结构化的多 Agent swarm 仍然不可用。让多个 Agent 并行写入同一份代码、同一套数据，结果比单 Agent 更差。但他找到了一类有效的模式：额外的 Agent 只贡献智能（代码审查、信息搜索、结果验证），不并行修改。审查 Agent 从干净的上下文出发审查 diff，每个 PR 平均发现 2 个 bug，其中 58% 是严重问题。关键的发现是审查 Agent 越不了解编码 Agent 的思考过程，反而越能发现问题。共享上下文会产生一种"谄媚式纠正"（sycophantic correction），Agent 倾向于认同前一个 Agent 的判断而不是质疑。

这个判断放回 SaaS-Bench 的 3.8% 里就很好理解。单个 Agent 在长程任务里出了错，没有一个独立的审查者帮它发现和纠正。一个人干 200 步不出错很难，但这才是 Agent 全自动办公的难度。

Walden 给出的判断框架是一个简单的 R/W 判据：任务以 Read 为主（研究、分析、信息搜集）适合多 Agent；任务以 Write 为主（代码生成、内容创作、文件编辑）应该单线程。Anthropic 的立场跟他一致：Claude Research 用多 Agent 做调研，提升达 90%；Claude Code 坚持单 Agent 编码。SWE-bench 的数据也支持这个判断。单 Agent 的 Claude Code 以 80.8% 排第一，所有多 Agent 系统都在后面（Morph）。

群里荆建杰说了一句话，把这个争论压缩到了最短："Agent 之间的多一轮交互，不如多跑一次代码。"

账单来了：微软内部弃用 Claude Code

另一个消息指向的问题更实际。5 月中旬，微软开始收回内部 Claude Code 的许可，要求团队在 6 月底前迁移到自家的 GitHub Copilot CLI（The Verge）。微软副总裁 Rajesh Jha 的对外说法是 Copilot CLI 能贴合微软的代码仓库和安全要求，但时间点说明了一件事：6 月 30 日是微软财年最后一天，收回许可刚好在新财年开始前砍掉一笔运营支出。

Claude Code 在微软内部受欢迎的程度超出管理层的预期。六个月的 A/B 测试期间，很多工程师更偏爱 Claude Code 而非 Copilot CLI，微软甚至鼓励设计师和项目经理用它做原型。但现在 Microsoft 2026 Work Trend Index 显示，软件工程团队已经走过了四个人机协作模式的演进阶段，从"人执行每一步"到了"人定义目标、Agent 自主执行"。在这个框架下，微软需要的不是一个更好的第三方工具，而是一个自己能控制方向的基础设施。

成本压力不只在微软。Uber 的 5000 名工程师开放 Claude Code 后，四个月烧完了全年预算。CTO 本人一次两小时的 demo 花了 1200 美元。但更关键的是 COO Andrew Macdonald 在 5 月公开说的一句话：虽然 95% 的工程师每月用 AI 工具、70% 的代码由 AI 生成，但公司无法把这笔投入跟面向消费者的产品改进建立因果关系（AI Weekly）。花了钱，看不到效果。同一天，GitHub 暂停了所有新 Copilot 订阅，从 6 月 1 日起全面转 token 计费。

但成本本身不是死局。DeepSeek 在 5 月 22 日把 V4-Pro 的 75% 折扣永久化，输出价格比 GPT-5.5 低 34 倍（The Decoder）。Cursor Composer 2.5（基于 Kimi K 2.5）和 Qwen 3.7 Max 在 SWE-Bench 上追平了前沿模型，成本只有十分之一。一条新的实践路径正在成型：Cursor 做日常 IDE 功能，Claude Code 做架构重构，Codex 做自主批量任务，DeepSeek 做成本敏感的一切，四工具一工作流，总成本约等于全走 Opus 的 10%。

群里的理想上个月在 DeepSeek 上花了 583 元，跑了 127 亿 token。同样的量在 Claude 上大概是 27 倍的价格。关键不是便宜的模型能不能替代贵的模型，而是大多数任务也许根本不需要最贵的模型。问题从"哪个模型最强"变成了"这个任务配什么模型刚好够用"。

模型选对了，成本压下来了，但还有一层没解决：谁来设计这一整套流程。

缺的不是 AI，是会用 AI 的人

OpenAI 今年 2 月发了一篇工程博客叫《Harness Engineering》，描述了一个实验：3 名工程师没有手写一行代码，通过约 1500 个自动 PR 构建了一个 100 万行代码的产品（OpenAI）。这篇文章在 90 天内催生了一整条内容链：Anthropic 连发三篇 harness 工程论文，ThoughtWorks 在 Martin Fowler 站点发表框架文章，Red Hat 出了实施指南，Hugging Face 的 Philipp Schmid 称之为"2026 年最重要的工程学科"。

但概念热起来的速度远超岗位沉淀的速度。在 LinkedIn 上搜 "harness engineer"，出来的还是航空航天和汽车制造里的线束工程师。AI 语境下的 harness engineer 还没有成为一个正式的 job title。它目前被嵌在 AI Platform Engineer、Developer Productivity Engineer 这些已有岗位里。

群里 quitelake 的描述可能是这个角色最具体的画像："研发团队里需要有一个熟悉软件工程和 harness 体系的人，专门为团队做 AI 脚手架。我这边 AI 网关和 CI/CD 基础设施是和 harness 工程同步推进的，从网关和 CI/CD 的审计日志里能拿到很多可以优化 harness 体系的反馈。"这不是凭空设计的流程，是从机器日志里长出来的。

Stone 提供了一个更底层的视角："所谓 harness engineering 也是在设计一套控制系统。从这个视角出发，不需要去寻找一套新的思维框架，用控制论的语言就可以。"目标、优化器、传感器，换成 Agent 了，结构没变。

Gartner 的数据提供了一个背景：79% 的企业声称采用了 AI Agent，但只有 11% 在完整生产环境中运行（Gartner）。差距接近 7 倍。EY 和微软在 5 月 21 日宣布了一个五年 10 亿美元以上的联合倡议（Microsoft），帮企业从 AI 试点走向全面部署。EY 自己作为"Client Zero"已经向 40 万员工部署了 Copilot，测出 15% 的生产力提升。但即使是 EY 这种规模的验证，也刚走完从"一个人用 AI"到"一个组织用 AI"的一小步。

群里摔跤吧!金金有一个直觉判断："我们做这些有一个天然的劣势，就是我们定的任何规范、协议，大模型都没有训练过。这些厂商自己做的话，可以自己训练，效果比我们好得多。"这话指出了 harness 工程最深的约束：今天能跑通的 harness 设计，明天就可能被厂商原生支持替代。你在控制系统层面做的创新，随时可能被平台层的版本更新收编。

也值得知道

GPT-5.6 canary 信号被捕获：开发者在 OpenAI Codex 后端日志中发现了未发布的 GPT-5.6 模型，上下文窗口 150 万 token，比 GPT-5.5 提升约 43%。Polymarket 上 7 月发布的概率超过 60%（AIBase）。

OpenAI 模型独立否证了 80 年数学猜想：一个通用推理模型否证了 Erdős 1946 年提出的平面单位距离猜想，Fields 奖得主 Tim Gowers 评价会"毫不犹豫推荐到 Annals of Mathematics 发表"（OpenAI）。

Nvidia 单季营收 $816 亿创纪录：CEO Huang 称 AI 是"五层蛋糕"（能源、芯片、基础设施、模型、应用），需求呈抛物线增长（CNBC）。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：daily.yage.ai

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-25: Claude不到4%，AI全自动办公还远

[鸭哥 AI 手记] 2026-05-25: Claude不到4%，AI全自动办公还远

Claude Opus 4.7 只拿 3.8%：Agent 全自动办公卡在哪

账单来了：微软内部弃用 Claude Code

缺的不是 AI，是会用 AI 的人

也值得知道

[鸭哥 AI 手记] 2026-05-26: AI VP说：你的Harness是脚手架

[鸭哥 AI 手记] 2026-05-24: 83%的PR被关，规则在重写

[鸭哥 AI 手记] 2026-05-23: 300倍价差，AI市场在分裂