[鸭哥 AI 手记] 2026-05-26: AI VP说:你的Harness是脚手架


[鸭哥 AI 手记] 2026-05-26: AI VP说:你的Harness是脚手架

懒人包:昨天,一位 Microsoft AI 的技术领导者告诉群友 LangSensei:你现在写的 harness 全是 throwaway work,AI 总有一天自己会学会。同一天,鸭哥在发文章讲 Skills 积累才是护城河。两个人的判断指向同一个问题,但答案刚好相反:当 AI 本身在进化时,你建在上面的东西到底能撑多久?另一条线,群里在认真讨论 OPC 还做不做得下去——2025 年 12 月之后被判断为"九死一生",但真在做的人发现,AI 拉平技术执行的同时,把信任和判断推成了真正的瓶颈。


你赌的是 AI 会从哪个方向进化

LangSensei 在群里分享了和一位 Microsoft AI 技术负责人的对话,开头就很直白。他之前一直觉得应该做一个最好用的 harness,驾驭 AI 做出更好的产品。大佬说这是错的——"AI 跟人一样,会进化。你要 harness 一个会进化的东西,本质上是不可能的。"

大佬给的替代方案更像训练模型:搭一个最简单的脚手架,提供成熟的 production 代码,让 AI 去迭代、去学习。一开始可能全是错的,让人打分和评估,直到 AI 能做到和人类团队一样的标准。

这个观点不是孤例。Michael Weilbacher(也在 Microsoft AI)最近在 LinkedIn 发了一篇叫 "AI-Era Software: Fast Scaffolding, Trusted Houses" 的文章(LinkedIn),他把代码分成了两类:scaffolding 是 AI 生成的一次性代码,价值在于"当下的加速",用完即弃;trusted houses 是承载业务逻辑和信任负担的代码,错误成本很高。他的判断是 AI 正在让 scaffolding 更有价值——不是更廉价,而是更有价值——因为快速验证想法的成本大幅下降了。但留下的代码仍然背负着信任负担,"市场把两者混为一谈,导致了新的混乱。"

两个观点共享一个前提——AI 生成的东西折旧很快——但走了不同的方向。Weilbacher 说你应该区分脚手架和房屋,别把脚手架当房子维护。LangSensei 的大佬说你现在写的 harness 就是脚手架,别在上面花太多时间。

鸭哥同一天发的 blog 《用好AI的第二步:先写Skill再执行》 走的是第三条路。他的观点不是"harness 没用",而是"harness 的 durable 层不在代码,在认知"。Skill 不是一段 prompt,是你对一件事的判断被外化成一个可复用的模块。challen 在群里写了很长一段反思,把这件事讲得很清楚:自己能做到,和能识别出众多做到的事里哪一步是关键,还能把关键点讲给别人——这三层之间隔着巨大的认知差距。"熟练度会消灭差异感,鸭哥还能反向定位低阶到高阶之间的那个窄门。"

这件事有一个正在发生的市场验证。Anthropic 在 2025 年底把 Agent Skills 标准(SKILL.md 格式)开源了,走的是和当年 MCP 一样的推广路径:先在自家产品验证,再推给全行业。Cursor 已经完整支持了这个标准(Cursor Docs),OpenCode 通过第三方插件兼容。GitHub 上 anthropics/skills 仓库已有 139k stars。但这个标准离"行业标准"还有距离——OpenAI 有 GPT Store,Google 有 Gems,三家的路线至今没有并轨。

这里有一个关键问题:Anthropic 推 Agent Skills 标准,本身是在建 scaffolding 还是在建 trusted house?如果是 scaffolding,那 Cursor 采用它就是押注了一个可能被模型能力吞噬的层。如果是 trusted house,那它的价值在于它能跨模型、跨工具、跨时间——因为判断被固化了。

宋世康在讨论里给了一个很清晰的划分。狭义的 harness 是"在已知有通用 agent 全套之后,为了弥补长时运行缺陷额外加的东西"。广义的 harness 是"模型之外的所有东西"。他的判断很简单:广义的 harness,"这很难脱轨,这就是产品要考虑的,和模型强弱无关,是正交的。"

这个划分本身就是一个赌注。如果你在狭义层投资,你在赌模型解决不了某些工程问题。如果你在广义层投资,你在赌模型越强,产品层越重要。同一个群里的 yosa 对此持怀疑态度:"我觉得这个太虚了,没法指导我们具体下一步如何行动。"

Anthropic 自己最近的一个动作暗示了他们对这个赌注的判断。Claude Managed Agents 正在把 agent 运行时的基础设施(沙盒、记忆、凭证、多 agent 协调、事件流)全部吸收到平台层(The Decoder)。这等于在说:harness 层的工程复杂性是 Anthropic 的平台职责,不是开发者的。如果这个路线跑通,第三方 harness 工具的差异化空间会被压缩。

看这些争论时,有一个数据不容忽视。METR 在 2025 年做的严格随机对照试验发现,使用 Cursor Pro + Claude Sonnet 的开发者,事前预测 AI 能节省 24% 时间,事后自评节省了 20%,但客观测量显示实际上慢了 19%(arXiv)。感知和现实的差距达 39 个百分点。这个实验规模不大(16 人、246 个任务),但它的结构值得认真对待:当开发者觉得 AI 在帮自己加速,实际上在减速时,整个组织层面积累的"隐性维护债"会在什么时间点兑现,现在没人能回答。

George Hotz 对这个问题的判断更极端。他在博客里直接说,引入 AI Agent 做软件开发"会成为这个领域历史上代价最高的错误之一"(The Decoder)。他花了六个月把所有主流 AI 编程 Agent 都试了一遍,结论是:Agent 生成的代码表面上能跑,底层全是膨胀、复制粘贴和脆弱的抽象。他举了一个例子——Agent 为了让测试通过,直接把测试代码注释掉了。

用 Weilbacher 的框架翻译 Hotz 的观点:问题不是 AI 生成的 scaffolding 不好用,是很多人把 scaffolding 当成了 trusted house。建的时候快,住进去才发现承不了重。

所以回到那个问题:你赌的是什么?如果你赌模型会在两年内自动学会写 harness、自己搭建工具链、自己管理上下文,那你今天的 harness 投入就是沉没成本。如果你赌模型只能泛化,不能替代具体领域的判断和 taste,那 Skills、eval 数据、领域知识——这些就是你今天最该投资的东西。


当 AI 把人拉平到同一条起跑线,信任成了唯一的终点

同一天,群里另一条讨论线看起来不相关,但底层的结构是一样的。

Rodriguez 说了一句很尖锐的判断:"去年之前 OPC 就能风生水起。2025 年 12 月之后的 OPC 应该都是九死一生。"Fermi 的回应代表了另一种看法:"Agent 这么强之前,我完全不可能做 OPC,想都不会想,现在会觉得我也可以——不过这个确实让竞争变激烈了。"

两个人说的都对。AI 同时做了两件事:让做产品变得极其容易,让卖产品变得极其困难。

群友 yosa 的直接追问抓住了这个悖论:"如果谁都可以做的话,那门槛在哪?"AX 的回答一针见血:"需要会做自媒体个人 IP,或者会做 GTM sales 的 partner。"彭超说得更干脆:"不要先考虑产品,先要把自己卖出去。"

同一天,虎嗅发了一篇报道,标题是《2026年,第一批"一人公司"老板已经退场》(虎嗅)。几个数字很具体。全国一人公司存量突破 1600 万家,每新增 4 家企业就有一家是一人公司。创业者中 90 后、00 后及 35 岁以下占比近 60%,超过 44% 来自互联网或科技大厂。上海一个叫 SoloNest 的创业圈对 2500 多个样本的观察显示,仅 20% 的公司跑通了商业闭环。深圳 OPC 圈子的年留存率不足十分之一。

文章里一个叫廖然的 95 后案例揭示了失败的结构性原因。他带 3 万元辞职做 AI 生成的宠物定制文创产品。但 AI 抹平了设计门槛,他的"创意"在电商平台上迅速变成标品,全网同款卖 19.9 元。每月近 3000 元的五险一金成了硬支出,半年烧光 3 万。这不是一个关于 AI 好不好用的故事——当技术拉平了所有人的起点,什么才是后半程的燃料?

群里真正跑通的人,讲的都是同一类经验。Excellent 说他前面几单,发票还没开出来老板的尾款就打了——"合同还没签就先打 50% 的预付款,合同才刚收到还没盖章寄回去就收到预付款了。"他的总结是"客户给谁做他们大概都是无所谓的,要的就是你和他之间建立的信任感。"宋世康分享了一个更戏剧性的案例:他们给一个金主做了 AI 方案规划,金主很满意,但方案明眼人看得出来是个长期计划。金主的选择不是签更多合同——而是直接要求两个 OPC 入职领工资。"见过劝人下海的,没见过往回捞的。"宋世康最后补了一句。

OPC 的悖论在这里最尖锐。如果你的方案好到客户想长期锁定,你的最优解反而是不再做 OPC——变成雇员。如果你的方案一般到客户不想锁定,你随时可以被替代。用 Oversea 的话总结:"OPC 后面难的就是怎么摆脱挣劳动工资。但是首先得挣到劳动工资。"

这个悖论不会很快消失。它的根在更深的地方:AI 降低的是"生产一个功能"的门槛,但抬高的是"让一个功能被采用"的门槛。当每个人都有了生产能力,功能不再稀缺,信任才稀缺。


也值得知道

米哈游一夜烧掉 200 万元 Token。 米哈游 AI 技术负责人在阿里云峰会上透露,有员工搭建了数十个 Agent 协同工作,一个晚上消耗了约 200 万元 token。同一天,米哈游联合创始人刘伟表示未来三年最多投入 1000 亿元深耕 AI,"就算最终不成功,没做出来,也认了,就当放一场大烟花。"(36氪

Anthropic Q2 首次季度盈利,收入 109 亿美元。 Anthropic 披露 2026 Q2 预计收入 109 亿美元,经营利润 5.59 亿美元,比内部预测提前两年实现盈利。但 WSJ 同时指出,由于后续巨额算力投入,全年未必维持盈利。Anthropic 每月向 SpaceX AI 支付 12.5 亿美元算力费用。(TechCrunch

中国扩大 AI 人才出境限制至私营企业。 Bloomberg 报道,中国将出境管控范围从国有研究机构扩展到私营 AI 公司,限制核心技术人员出国参加会议或接受海外工作。这条新闻被列为本周 AI 赛道六大焦点之一。(Bloomberg


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:daily.yage.ai

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-25: Claude不到4%,AI全自动办公还远 懒人包:Claude Opus 4.7 在北京智源的一场办公大考中只做完了 3.8% 的任务。106 项只过了 4 项。同一天发生的是:Walden Yan 公开修正了自己 10 个月前反对多 Agent 的判断;微软内部弃用了 Claude Code;Uber 的 5000 名工程师四个月烧完全年 AI 预算但 COO 承认无法证明 ROI;而 79% 的企业声称在用 AI Agent,只有 11% 真正跑在生产环境。五件事同时出现在一个窗口,不是巧合。AI 工具快速变强了,但组织真正用起来的能力,还差着好几层。 Claude Opus 4.7 只拿 3.8%:Agent 全自动办公卡在哪 北京智源人工智能研究院(BAAI)最近发布的 SaaS-Bench 测试,把这个问题照得很清楚。他们让 AI Agent 在真实的 SaaS 环境中操作计算机,做财务人员最日常的工作:创建客户、开发票、记录付款、账户对账。106 个任务,从几步到 200 多步不等,每个任务有多个检查点。 最强的...

[鸭哥 AI 手记] 2026-05-24: 83%的PR被关,规则在重写 > Flask 作者 Armin Ronacher 的 Pi 项目过去 90 天收到 3145 条外部贡献,83% 被自动关闭。714 个 PR 里只有 60 个最终合入。他写的不是抱怨贴。文章里抛出的那句话更尖锐:标准已经改了,只是没人通知你。同一天,美国三十多个州的居民在用投票告诉科技公司同一件事。 懒人包:Ronacher 的数据说明了一个简单的逻辑:AI 没有让谁变差,AI 放大了你本来就有的模式。会判断的人被放大了判断力,不会的人被放大了错误。当 Ronacher 的 tracker 里 83% 的贡献被拒、Virginia 居民对数据中心支持率从 62% 跌到 23%,两个信号指向的其实是同一件事——旧标准撑不住新现实了。另外,一篇 2026 年提交 NeurIPS 的论文发现,大多数 RAG 场景下最简单的聚类方案就够用,这个判断和前两件事共享同一个底层逻辑:什么时候不补就够用,比怎么补更快更有用。 83% 的 PR 被关掉,尺子换了 鸭哥昨天在群里分享了他刚写的文章。《你编程十年,但在...

[鸭哥 AI 手记] 2026-05-23: 300倍价差,AI市场在分裂 > 5 月 20 日那天,Jefferies 发布了一份研报:在 OpenRouter 上,中国 Top 9 模型一周处理了 4.37 万亿 token,美国模型 4.98 万亿。差距从"中国追赶到一半"缩小到了几乎持平。同一周,Uber 确认了一件事:5000 名工程师用 Claude Code,四个月烧完了全年 AI 预算。最贵的模型和最便宜的模型之间差了 300 倍。这 300 倍不是 bug,是市场正在分裂成两个行业的结构信号。 懒人包:AI API 市场的最低端和最高端之间差了 300 倍,而且差距在以不对称的方式扩大——低端一年降 40 倍,高端三年只降 4 倍。Uber 5000 名工程师用 Claude Code 四个月烧完全年预算,同期 DeepSeek 把旗舰模型永久降价 75%。同一天,Martin Fowler 公开承认他不知道编程的未来是什么——当行业最受尊敬的架构师停止做预测时,变化的速率已经超过了人类建立心智模型的能力。更深处,群里在讨论 AI...