[鸭哥 AI 手记] 2026-04-09


[鸭哥 AI 手记] 2026-04-09

> 最贵的模型放在最错的位置,比最便宜的模型放在最对的位置还差。同一个道理,$3B 的 AI rollup 赌注赌的也是同一件事:技术够用了,瓶颈在于谁有权力把东西放到对的位置上。

懒人包:AgentOpt 论文用 81 种模型组合证明 Opus 做 planner 排名倒数,Ministral 8B + Opus 的准确率是纯 Opus 的两倍以上,成本低 13-32 倍。同一天,鸭哥写了 AI Rollup 调研:GC 和 Thrive 投了超过 $3B 买传统服务企业的控股权,因为 80% AI 项目失败的根因全是组织性的,零条是技术性的。两件事指向同一个判断:当能力过了及格线,优化目标从"用什么"变成了"放在哪"。

最强模型做最差组件:一个反直觉的实验

搭 agent 管线时,大多数人的默认直觉是关键环节上最强模型。鸭哥昨天写了一篇完整分析,起点是微软研究院和哥伦比亚大学合作的 AgentOpt 论文(arXiv:2604.06296)。他们在 HotpotQA 上测了 9 个模型、81 种组合,结论很扎心:Claude Opus 放在 planner 位置,准确率 31.71%,在全部 81 种组合中排名倒数。把 Ministral 8B 放 planner、Opus 放 solver,准确率到了 74.27%。

为什么?Opus 做 planner 时太"聪明"了,它直接跳过工具调用自己回答问题。7/9 次 solver 根本没被激活。一个参数量大一个数量级的模型,反而因为不肯老实委派任务,破坏了整条推理链。Ministral 8B 表现好,恰恰因为它知道自己回答不了,老老实实拆解任务、调用工具、交给下游。

群里郝小贱引用了论文数据后感叹了一个"额。。。"。数据确实在说:在 agent 管线里,模型的"听话程度"比"聪明程度"更决定整体表现。成本端更夸张:在 BFCL 上 Qwen3 Next 和 Opus 准确率一样是 70%,成本差 32 倍(AgentOpt GitHub)。这个差距靠优化推理引擎补不回来,选错模型组合,后面做什么都在多花钱。

这个发现和近期多项独立研究方向一致。Stanford 的 Meta-Harness(arXiv:2603.28052)发现仅优化模型周围的 harness code,同一个模型的得分能产生 6 倍差距。模型没换,提示词没换,改变的只是模型被放在什么样的工作环境里。W4S 让弱模型为强模型设计工作流,结论类似。崔富泽在群里分享了 DROID Mission 的案例,100 万行零人工代码背后是 5 层 harness 设计,也指向同一个方向。

趋势清晰:当模型足够强时,系统设计层面对结果的边际贡献开始超过模型能力升级本身。

对 builder 的实际含义:对你的管线做一次低成本测试,把 planner 或 orchestrator 换成一个小模型,看性能是否显著下降。如果没有,你正在为一个用不上的能力等级付 13 到 32 倍的溢价。AgentOpt 已经开源(pip install agentopt-py),框架无关,通过 HTTP transport 拦截适配 LangChain、CrewAI 等现有 agent,改动量接近零。


$3B 赌的是谁有权力重组流程

同一天鸭哥发了另一篇调研,关于 AI Rollup。General Catalyst 从 $8B 基金中划了 $1.5B,Thrive Capital 部署超过 $1B,赛道总资本已过 $3B(Capital Founders)。做法很直白:收购传统服务企业(客服、法律、IT 运维),拿控股权,然后用 AI 替换 30-70% 的重复性人力,把 EBITDA margin 从 15-20% 推向 30-40%。

Crescendo 是目前最典型的案例。20 人的 AI 团队收购了 3000 人的 PartnerHero,一夜获得 200+ 客户,Series C 估值 $500M。Thrive 走得更远:OpenAI 研究人员直接嵌入被投企业的工程团队,为每家公司定制模型。Sequoia 合伙人 Julien Bek 提了一个互补论点:企业每花 $1 在软件上,就花 $6 在服务上,AI 现在有能力去捕获那 $6(Sequoia)。

交易数字引人注目,但鸭哥在文章中提炼的更深层判断是:AI 落地的真正瓶颈在组织执行权。RAND 发现超过 80% 的 AI 项目失败,五大根因全是组织性的。零条是模型不够聪明(Talyx)。BCG 的数据更尖锐:只有 5% 的企业实现了 AI 的规模化价值,那 5% 几乎都有一个深度参与 AI 的一号位。

GC 选择控股而不是咨询,本质是在买 enforcement gap 的价值。咨询顾问可以写出完美的 AI 转型路线图,但碰到需要缩减编制、重定义中层权限的决策时,没有控制权就只能写建议、等续约。GC 的 Marc Bhargava 说得很明确(Sourcery):Fortune 100 的 AI 变革常常失败,根因在执行层。

这和 AgentOpt 的发现在抽象层面是同一件事。Opus 做 planner 失败,是因为能力太强反而突破了角色边界。企业 AI 项目失败,是因为技术方案的能力方向和组织执行权的方向不匹配。解法也类似:找到约束条件下最匹配角色需求的资源,而非用最强的资源填所有位置。

Klarna 是反面教材:2023 年裁掉约 700 名客服人员用 AI 替代,到 2025 年中期全面逆转,问题解决时间增加 27%,客户不满增长 35%(LaSoft)。CEO 自己承认过度追求效率忽视了质量。

群里大铭分享了一个企业惯性的生动案例。他在高考志愿填报行业,张雪峰出事后获客成本从每单 130-150 元骤降到 70-80 元,竞对 IP 直播间在线人数从 400 涨到 1500。但他随即指出,从张雪峰退单来的客户带着对 90 分交付的预期,而行业均值只有 70 分。效率端的改进很容易获取,改变组织如何消化和交付这些改进,才是真正卡人的地方。


也值得知道

OpenAI 也有一个"太危险不敢发"的模型:Anthropic 发布 Mythos 限制访问两天后,Axios 报道 OpenAI 正在做同样的事。GPT-5.3-Codex 被描述为其网络安全能力最强的模型,将通过 Trusted Access for Cyber 试点向少数公司限量开放,附带 $1000 万 API credits(Axios)。两家前沿实验室同一周选择限制发布,AI 能力的分发方式正在从"谁都能用"向"有资质才能用"转变。

HuggingFace CEO 硬刚 Mythos 安全叙事:Clement Delangue 称团队用小型开源模型测试了 Anthropic 展示的所有安全漏洞案例,8/8 都检测到了相同问题,直接质疑"只有最强闭源模型才能做安全审计"的前提。Anthropic 同期还被曝出源码泄露事件,Delangue 讽刺"拥有最强网络安全模型的公司自己代码仓库安全都做不好"(TechCrunch)。

Codex 额度缩水引发讨论:群里 RX 反映 200 美元 Codex plan 明显不如之前耐用,此前的 2x 额度加成已取消。于帆报告 GPT 5.4 频繁出现 capacity 错误。哞感慨去年还在把 token 成本当第一大问题,今年 200 美元"什么干不了"。token 从稀缺资源变成大宗商品的速度,比大多数人预期的快。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-30: Cursor 一句 Keep Rate,把评估搬到了用户身上 > Cursor 4-30 那篇 agent harness 文里抛出一个新指标 Keep Rate,它不再问 agent 写得对不对,它问你最后留没留这段代码。同一天群里玉伯入群一句"User Context + Harness Engineering 是应用层关键成败",林好喊出"AI 疲倦期"四个信号,群报机器人在公开版被现场注入测试。三件事的暗线是同一件事:评判 AI 的尺子从动作本身搬到了动作之后留没留下东西。 懒人包:Cursor 4-30 在 Continually Improving Our Agent Harness 里公开了 Keep Rate,这个指标和它平行使用的"用语言模型读用户后续回复"一起,把 agent 评测从能力题改成了行为题;它和 Martin Fowler 4 月那篇 Harness Engineering for Coding Agent Users 提的 Guides + Sensors...

[鸭哥 AI 手记] 2026-04-29: V4-Flash 几块钱跑一天,agent 开始变私有 > 鸭哥昨天在群里说自己写文章已经从 Opus 4.6 切到 DeepSeek V4-Flash,Ethan 同时说"跑了很久才几块 RMB"。这件事单看像是又一个降价段子,但和昨天三篇 yage.ai 文章放在一起,能看到一条更隐蔽的暗线:模型供给、工程实践和社交占有这三层,正在同一周里被同时往"私有"那个方向推。 懒人包:DeepSeek 4 月 24 日预览发布的 V4 把 1M context 和 agentic workload 当成显式设计目标,V4-Flash 的官方报价是 $0.14/$0.28 每百万 token,比 Claude Opus 4.6 便宜一个数量级(OpenRouter、fello.ai 价格表);鸭哥昨天那篇 深入浅出 DeepSeek V4 把 hybrid attention、OPD 这些工程取舍写给非研究员看,重点是 V4 不再追求理论最简,而是公开了一组复杂工程拼装的代价。同一天发布的 AI coding 里真正有复利的东西...

[鸭哥 AI 手记] 2026-04-28: 9 个 Connector、20 亿 Manus、110 人封号 > Anthropic 4-28 一口气发布 9 个创意软件 Connector,自家博客开头就先写了一行"Claude can't replace taste or imagination"。同一周里它把另外 110 个人的 Claude 账号一次性连坐封掉,不解释。今天三件事的暗线,是当一组事件第一次砸过来时,圈内的第一反应几乎总是用上一代的框架去接,而真正的信号往往躲在反方向的细节里。 懒人包:Anthropic 4-28 发了 9 个创意工具 Connector(Photoshop、Blender、Ableton、Adobe 全家桶等),群里第一反应是"Adobe、Office 要被灭掉",鸭哥昨天那篇 创意工具的 Agent 化 给出三代演进框架:组件一二早就就位,真正卡住整个领域的是组件三的感知-评估闭环,A 社在这件事上没有不可逾越的护城河。同一天,发改委还在讨论 4-27 否决 Meta 收购 Manus...