[鸭哥 AI 手记] 2026-04-09

> 最贵的模型放在最错的位置，比最便宜的模型放在最对的位置还差。同一个道理，$3B 的 AI rollup 赌注赌的也是同一件事：技术够用了，瓶颈在于谁有权力把东西放到对的位置上。

懒人包：AgentOpt 论文用 81 种模型组合证明 Opus 做 planner 排名倒数，Ministral 8B + Opus 的准确率是纯 Opus 的两倍以上，成本低 13-32 倍。同一天，鸭哥写了 AI Rollup 调研：GC 和 Thrive 投了超过 $3B 买传统服务企业的控股权，因为 80% AI 项目失败的根因全是组织性的，零条是技术性的。两件事指向同一个判断：当能力过了及格线，优化目标从"用什么"变成了"放在哪"。

最强模型做最差组件：一个反直觉的实验

搭 agent 管线时，大多数人的默认直觉是关键环节上最强模型。鸭哥昨天写了一篇完整分析，起点是微软研究院和哥伦比亚大学合作的 AgentOpt 论文（arXiv:2604.06296）。他们在 HotpotQA 上测了 9 个模型、81 种组合，结论很扎心：Claude Opus 放在 planner 位置，准确率 31.71%，在全部 81 种组合中排名倒数。把 Ministral 8B 放 planner、Opus 放 solver，准确率到了 74.27%。

为什么？Opus 做 planner 时太"聪明"了，它直接跳过工具调用自己回答问题。7/9 次 solver 根本没被激活。一个参数量大一个数量级的模型，反而因为不肯老实委派任务，破坏了整条推理链。Ministral 8B 表现好，恰恰因为它知道自己回答不了，老老实实拆解任务、调用工具、交给下游。

群里郝小贱引用了论文数据后感叹了一个"额。。。"。数据确实在说：在 agent 管线里，模型的"听话程度"比"聪明程度"更决定整体表现。成本端更夸张：在 BFCL 上 Qwen3 Next 和 Opus 准确率一样是 70%，成本差 32 倍（AgentOpt GitHub）。这个差距靠优化推理引擎补不回来，选错模型组合，后面做什么都在多花钱。

这个发现和近期多项独立研究方向一致。Stanford 的 Meta-Harness（arXiv:2603.28052）发现仅优化模型周围的 harness code，同一个模型的得分能产生 6 倍差距。模型没换，提示词没换，改变的只是模型被放在什么样的工作环境里。W4S 让弱模型为强模型设计工作流，结论类似。崔富泽在群里分享了 DROID Mission 的案例，100 万行零人工代码背后是 5 层 harness 设计，也指向同一个方向。

趋势清晰：当模型足够强时，系统设计层面对结果的边际贡献开始超过模型能力升级本身。

对 builder 的实际含义：对你的管线做一次低成本测试，把 planner 或 orchestrator 换成一个小模型，看性能是否显著下降。如果没有，你正在为一个用不上的能力等级付 13 到 32 倍的溢价。AgentOpt 已经开源（pip install agentopt-py），框架无关，通过 HTTP transport 拦截适配 LangChain、CrewAI 等现有 agent，改动量接近零。

$3B 赌的是谁有权力重组流程

同一天鸭哥发了另一篇调研，关于 AI Rollup。General Catalyst 从 $8B 基金中划了 $1.5B，Thrive Capital 部署超过 $1B，赛道总资本已过 $3B（Capital Founders）。做法很直白：收购传统服务企业（客服、法律、IT 运维），拿控股权，然后用 AI 替换 30-70% 的重复性人力，把 EBITDA margin 从 15-20% 推向 30-40%。

Crescendo 是目前最典型的案例。20 人的 AI 团队收购了 3000 人的 PartnerHero，一夜获得 200+ 客户，Series C 估值 $500M。Thrive 走得更远：OpenAI 研究人员直接嵌入被投企业的工程团队，为每家公司定制模型。Sequoia 合伙人 Julien Bek 提了一个互补论点：企业每花 $1 在软件上，就花 $6 在服务上，AI 现在有能力去捕获那 $6（Sequoia）。

交易数字引人注目，但鸭哥在文章中提炼的更深层判断是：AI 落地的真正瓶颈在组织执行权。RAND 发现超过 80% 的 AI 项目失败，五大根因全是组织性的。零条是模型不够聪明（Talyx）。BCG 的数据更尖锐：只有 5% 的企业实现了 AI 的规模化价值，那 5% 几乎都有一个深度参与 AI 的一号位。

GC 选择控股而不是咨询，本质是在买 enforcement gap 的价值。咨询顾问可以写出完美的 AI 转型路线图，但碰到需要缩减编制、重定义中层权限的决策时，没有控制权就只能写建议、等续约。GC 的 Marc Bhargava 说得很明确（Sourcery）：Fortune 100 的 AI 变革常常失败，根因在执行层。

这和 AgentOpt 的发现在抽象层面是同一件事。Opus 做 planner 失败，是因为能力太强反而突破了角色边界。企业 AI 项目失败，是因为技术方案的能力方向和组织执行权的方向不匹配。解法也类似：找到约束条件下最匹配角色需求的资源，而非用最强的资源填所有位置。

Klarna 是反面教材：2023 年裁掉约 700 名客服人员用 AI 替代，到 2025 年中期全面逆转，问题解决时间增加 27%，客户不满增长 35%（LaSoft）。CEO 自己承认过度追求效率忽视了质量。

群里大铭分享了一个企业惯性的生动案例。他在高考志愿填报行业，张雪峰出事后获客成本从每单 130-150 元骤降到 70-80 元，竞对 IP 直播间在线人数从 400 涨到 1500。但他随即指出，从张雪峰退单来的客户带着对 90 分交付的预期，而行业均值只有 70 分。效率端的改进很容易获取，改变组织如何消化和交付这些改进，才是真正卡人的地方。

也值得知道

OpenAI 也有一个"太危险不敢发"的模型：Anthropic 发布 Mythos 限制访问两天后，Axios 报道 OpenAI 正在做同样的事。GPT-5.3-Codex 被描述为其网络安全能力最强的模型，将通过 Trusted Access for Cyber 试点向少数公司限量开放，附带 $1000 万 API credits（Axios）。两家前沿实验室同一周选择限制发布，AI 能力的分发方式正在从"谁都能用"向"有资质才能用"转变。

HuggingFace CEO 硬刚 Mythos 安全叙事：Clement Delangue 称团队用小型开源模型测试了 Anthropic 展示的所有安全漏洞案例，8/8 都检测到了相同问题，直接质疑"只有最强闭源模型才能做安全审计"的前提。Anthropic 同期还被曝出源码泄露事件，Delangue 讽刺"拥有最强网络安全模型的公司自己代码仓库安全都做不好"（TechCrunch）。

Codex 额度缩水引发讨论：群里 RX 反映 200 美元 Codex plan 明显不如之前耐用，此前的 2x 额度加成已取消。于帆报告 GPT 5.4 频繁出现 capacity 错误。哞感慨去年还在把 token 成本当第一大问题，今年 200 美元"什么干不了"。token 从稀缺资源变成大宗商品的速度，比大多数人预期的快。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-09

[鸭哥 AI 手记] 2026-04-09

最强模型做最差组件：一个反直觉的实验

$3B 赌的是谁有权力重组流程

也值得知道

[鸭哥 AI 手记] 2026-04-30: Cursor 一句 Keep Rate，把评估搬到了用户身上

[鸭哥 AI 手记] 2026-04-29: V4-Flash 几块钱跑一天，agent 开始变私有

[鸭哥 AI 手记] 2026-04-28: 9 个 Connector、20 亿 Manus、110 人封号