[鸭哥 AI 手记] 2026-04-06

> 你修不好你看不见机制的东西。无论是一个 token 的概率分布，还是一个框架的隐含假设。

懒人包：Apple 新论文揭示 LLM 代码生成的一个 token 级失败机制：有些位置需要极高精度，有些位置需要探索空间，而全局解码策略只能二选一。这个张力在更大的尺度上同样存在。群里爆发了一场关于 agent 框架的激烈讨论，鸭哥的判断是当前所有编排框架都建立在错误假设上，而精髓只有两个词：loop 加 context engineering。

代码生成里藏着一个二选一的陷阱

群友哞分享了 Apple 刚发布的 ML-SSD 论文的 GitHub 仓库，鸭哥随即写了一篇完整解读。这篇论文对终端用户的直接影响有限，但它提供了一个极简的框架来理解一个常见的体验：为什么同一个模型，有时能写出完全正确的代码，有时又错得离谱。

论文的核心观察：代码生成过程中存在两类位置。Lock position，语法和语义把合理选择压缩到极小范围，比如 for i in range( 后面几乎只能接数字或变量。Fork position，多个方向都合理，比如面对一道图论题，用 DFS 还是 BFS 都说得通。lock 需要模型的概率分布高度集中，fork 需要分布保持分散。但当前的全局解码策略（一个 temperature 从头用到尾）只能在两者之间做一个固定折中。

Apple 的解法是 self-distillation：用模型自己生成的大量代码对自己做微调，让模型在参数层面学会按上下文自适应地调节分布。消融实验数据很说明问题：Qwen3-30B-Instruct 在 LiveCodeBench v6 上的 pass@1 从 42.4% 跳到 55.3%，而单纯的全局 temperature 搜索无法达到这个水平（arXiv）。这排除了"只是间接找到了更好的 temperature"这个解释。

Meta 在走另一条路。他们的 Adaptive Decoding via Latent Preference Optimization 训练了一个轻量神经模块，在推理时根据当前 hidden state 动态选择 temperature，可以做到 token 级别的粒度（Meta AI Research）。思路不同，指向同一个判断：全局解码策略是代码生成质量的一个真实瓶颈。

这个框架对使用者有什么实际价值？它解释了一个常见经验：让模型多试几次往往比精调单次提示更有效。如果瓶颈确实在 lock/fork 的折中，多次采样本质上是用样本数量来缓解单次解码策略的局限。它也解释了为什么模型在简单语法上偶尔犯低级错误：那可能是 lock position 的长尾概率在作祟，而非模型"不懂"这段代码。理解失败机制，比换一个更贵的模型有用得多。

框架之争的终局：精髓只有两个词

同一天群里爆发了一场关于 agent 编排框架的讨论。起因是靳禹问了一个直接的问题：有没有人搞了一个软件交付舰队，不管用什么框架？

鸭哥的回应很不客气：langchain 臭名昭著，各种 workflow 简直是 anti-pattern。他分享了自己的文章《为什么学习 Agentic AI 的第一步是忘记所有框架》，核心判断是当前所有 agent 编排框架都建立在一两年前对 agentic AI 的天马行空的想象上，是在错误假设上做的过度抽象。

晓灰给出了更精炼的总结：agent 的精髓就是 loop 加 context engineering。这两个词把整个领域最核心的机制压缩到了最小体积。IQ75 附和说"只有 Cursor 和 Claude Code 掌握了 AI agent 框架的精髓，其他所谓编排框架都是用做应用的思路做 AI agent"。

这个判断和 ML-SSD 论文指向的问题有一层同构。全局 temperature 是解码层面的过度抽象：它用一个参数覆盖所有位置，无视上下文差异。LangChain 式的编排框架是架构层面的过度抽象：它用固定的 workflow DAG 覆盖所有任务，无视任务之间的耦合度差异。两者的解药也类似：让系统根据局部上下文自适应，而非服从全局策略。

陈明的体感印证了这一点。他说 2025 年几乎所有 agent 框架都做过 POC，最满意的还是拿 Claude Code 或 Codex 的 runtime 来用，简单的直接调 API 实现。马工则分享了去年七月尝试做无人软件工厂的失败经历，失败点在需求分析。多喝热水也说"完全无人不是我现在的追求，感觉整的半死不活的"。靳禹的判断更务实："没必要完全无人，阿里现在也是去替代外包。"

有趣的是，晓灰同时描述了另一个现实。他们公司真金白银买了大量 Mac Mini 部署 AI agent，作为外包工号归属团队预算。本质上就是代替外包员工，给它提供上下文充足的办公环境。这和 Salesforce 将客服团队从 9000 人缩减到 5000 人的路径一致（Tech.co）。PR Newswire 引用的预测称 AI super-agent 将在 2026 年淘汰多达 30% 的传统 HR 岗位（PR Newswire）。

鸭哥用了一个比喻来回应晓灰关于"还是要学框架"的建议：有点类似张无忌学太极拳是忘掉太极拳。要理解主要设计决策背后的为什么，理解用框架 ABC 需要付出的代价是什么。这比学会框架本身重要很多。更关键的是破除"我学会了某个框架就是高手了"这种懒人思想。

这里的共同线索是：当你把 AI 当工具，框架是合理的中间层；当你把 AI 当团队成员，框架反而成了多余的约束。工具需要标准化的接口，团队成员需要的是清晰的上下文和目标。loop 加 context engineering 之所以是精髓，因为它描述的是一个团队成员的工作方式，而非一个工具的调用协议。

也值得知道

Anthropic 年化收入超过 OpenAI：多个来源报道 Anthropic 2026 年 ARR 突破 300 亿美元，超过 OpenAI 的约 240 至 250 亿美元。差距来自 Anthropic 在企业客户上的集中度。群里也有人提到了这个数字。

OpenAI 提出机器人税和四天工作制：OpenAI 4 月 6 日发布了一组经济政策提案，呼吁建立由自动化劳动税（robot tax）资助的公共财富基金，并试验四天工作制（TechCrunch）。从卖模型到写政策，身份转换得很快。

三巨头联手反制中国模型盗版：Bloomberg 报道 OpenAI、Anthropic 和 Google 4 月 6 日宣布联合打击中国市场的模型非法复制行为（Bloomberg）。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-06

[鸭哥 AI 手记] 2026-04-06

代码生成里藏着一个二选一的陷阱

框架之争的终局：精髓只有两个词

也值得知道

[鸭哥 AI 手记] 2026-05-14: Anthropic打包行业，开发者撞编排墙

[鸭哥 AI 手记] 2026-05-13: $2300一晚：老尺子量不出新账了

[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘