> 你修不好你看不见机制的东西。无论是一个 token 的概率分布,还是一个框架的隐含假设。
懒人包:Apple 新论文揭示 LLM 代码生成的一个 token 级失败机制:有些位置需要极高精度,有些位置需要探索空间,而全局解码策略只能二选一。这个张力在更大的尺度上同样存在。群里爆发了一场关于 agent 框架的激烈讨论,鸭哥的判断是当前所有编排框架都建立在错误假设上,而精髓只有两个词:loop 加 context engineering。
群友哞分享了 Apple 刚发布的 ML-SSD 论文的 GitHub 仓库,鸭哥随即写了一篇完整解读。这篇论文对终端用户的直接影响有限,但它提供了一个极简的框架来理解一个常见的体验:为什么同一个模型,有时能写出完全正确的代码,有时又错得离谱。
论文的核心观察:代码生成过程中存在两类位置。Lock position,语法和语义把合理选择压缩到极小范围,比如 for i in range( 后面几乎只能接数字或变量。Fork position,多个方向都合理,比如面对一道图论题,用 DFS 还是 BFS 都说得通。lock 需要模型的概率分布高度集中,fork 需要分布保持分散。但当前的全局解码策略(一个 temperature 从头用到尾)只能在两者之间做一个固定折中。
Apple 的解法是 self-distillation:用模型自己生成的大量代码对自己做微调,让模型在参数层面学会按上下文自适应地调节分布。消融实验数据很说明问题:Qwen3-30B-Instruct 在 LiveCodeBench v6 上的 pass@1 从 42.4% 跳到 55.3%,而单纯的全局 temperature 搜索无法达到这个水平(arXiv)。这排除了"只是间接找到了更好的 temperature"这个解释。
Meta 在走另一条路。他们的 Adaptive Decoding via Latent Preference Optimization 训练了一个轻量神经模块,在推理时根据当前 hidden state 动态选择 temperature,可以做到 token 级别的粒度(Meta AI Research)。思路不同,指向同一个判断:全局解码策略是代码生成质量的一个真实瓶颈。
这个框架对使用者有什么实际价值?它解释了一个常见经验:让模型多试几次往往比精调单次提示更有效。如果瓶颈确实在 lock/fork 的折中,多次采样本质上是用样本数量来缓解单次解码策略的局限。它也解释了为什么模型在简单语法上偶尔犯低级错误:那可能是 lock position 的长尾概率在作祟,而非模型"不懂"这段代码。理解失败机制,比换一个更贵的模型有用得多。
同一天群里爆发了一场关于 agent 编排框架的讨论。起因是靳禹问了一个直接的问题:有没有人搞了一个软件交付舰队,不管用什么框架?
鸭哥的回应很不客气:langchain 臭名昭著,各种 workflow 简直是 anti-pattern。他分享了自己的文章《为什么学习 Agentic AI 的第一步是忘记所有框架》,核心判断是当前所有 agent 编排框架都建立在一两年前对 agentic AI 的天马行空的想象上,是在错误假设上做的过度抽象。
晓灰给出了更精炼的总结:agent 的精髓就是 loop 加 context engineering。这两个词把整个领域最核心的机制压缩到了最小体积。IQ75 附和说"只有 Cursor 和 Claude Code 掌握了 AI agent 框架的精髓,其他所谓编排框架都是用做应用的思路做 AI agent"。
这个判断和 ML-SSD 论文指向的问题有一层同构。全局 temperature 是解码层面的过度抽象:它用一个参数覆盖所有位置,无视上下文差异。LangChain 式的编排框架是架构层面的过度抽象:它用固定的 workflow DAG 覆盖所有任务,无视任务之间的耦合度差异。两者的解药也类似:让系统根据局部上下文自适应,而非服从全局策略。
陈明的体感印证了这一点。他说 2025 年几乎所有 agent 框架都做过 POC,最满意的还是拿 Claude Code 或 Codex 的 runtime 来用,简单的直接调 API 实现。马工则分享了去年七月尝试做无人软件工厂的失败经历,失败点在需求分析。多喝热水也说"完全无人不是我现在的追求,感觉整的半死不活的"。靳禹的判断更务实:"没必要完全无人,阿里现在也是去替代外包。"
有趣的是,晓灰同时描述了另一个现实。他们公司真金白银买了大量 Mac Mini 部署 AI agent,作为外包工号归属团队预算。本质上就是代替外包员工,给它提供上下文充足的办公环境。这和 Salesforce 将客服团队从 9000 人缩减到 5000 人的路径一致(Tech.co)。PR Newswire 引用的预测称 AI super-agent 将在 2026 年淘汰多达 30% 的传统 HR 岗位(PR Newswire)。
鸭哥用了一个比喻来回应晓灰关于"还是要学框架"的建议:有点类似张无忌学太极拳是忘掉太极拳。要理解主要设计决策背后的为什么,理解用框架 ABC 需要付出的代价是什么。这比学会框架本身重要很多。更关键的是破除"我学会了某个框架就是高手了"这种懒人思想。
这里的共同线索是:当你把 AI 当工具,框架是合理的中间层;当你把 AI 当团队成员,框架反而成了多余的约束。工具需要标准化的接口,团队成员需要的是清晰的上下文和目标。loop 加 context engineering 之所以是精髓,因为它描述的是一个团队成员的工作方式,而非一个工具的调用协议。
Anthropic 年化收入超过 OpenAI:多个来源报道 Anthropic 2026 年 ARR 突破 300 亿美元,超过 OpenAI 的约 240 至 250 亿美元。差距来自 Anthropic 在企业客户上的集中度。群里也有人提到了这个数字。
OpenAI 提出机器人税和四天工作制:OpenAI 4 月 6 日发布了一组经济政策提案,呼吁建立由自动化劳动税(robot tax)资助的公共财富基金,并试验四天工作制(TechCrunch)。从卖模型到写政策,身份转换得很快。
三巨头联手反制中国模型盗版:Bloomberg 报道 OpenAI、Anthropic 和 Google 4 月 6 日宣布联合打击中国市场的模型非法复制行为(Bloomberg)。
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:yage-ai.kit.com
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-05-14: Anthropic打包行业,开发者撞编排墙 > 当Anthropic把金融、法律、小企业的agent工作流打包成标准化产品时,群里两位实践者正在各自的skill体系里独立撞上同一堵墙:让agent可靠地干活,真正的瓶颈不在模型,在编排。 懒人包:Anthropic四天发了三个垂直方案——金融接FactSet和Moody's,法律接Westlaw和iManage,小企业接QuickBooks和PayPal——同一个agent架构在三个方向上展开。复用单位从代码变成了行业know-how。同一天,群里的胥克谦在5.8M的skill体系里得出"skill从来不为高复杂度考虑",leo-南在金融故障诊断场景里被三个致命问题卡住。两件事不在同一个屋子里谈的,但背后的推力是同一个:agent的可靠性瓶颈在编排层,不在模型层——Anthropic选了预包装,社群选了硬扛。另外,Codex mobile发布了,H200获批对华销售但一颗都没交付,Cerebras IPO首日涨了68%。 Anthropic不是在做三个产品,是在验证一个复用模型...
[鸭哥 AI 手记] 2026-05-13: $2300一晚:老尺子量不出新账了 > 群里有人让 Codex goal 通宵跑了一个任务,早上起来账单是 $2300,烧了 1.8B token。同一天,Claude 宣布要把 agent 程序化使用从订阅里拆出来单独计费。群里的反应就四个字:"自助餐没有了"。再往大看,Salesforce 和百度在同一个月各自推出了一套新指标,都试图把 AI 的账从"烧了多少 token"换成"完成了多少任务"。三件事不在同一间屋子里谈的,但背后的推力是同一个:token 这个单位正在全面失效。 懒人包:先记住 $2300 这个数字。当 agent 能在后台自行循环执行,token 消耗就不再是可预测的线性曲线。Salesforce 用 AWU(按完成任务数收费)刚交出一份成绩单:Q4 单季 7.71 亿 AWU,环比增 57%。李彦宏同一天在北京提出 DAA(日活智能体数),预测未来全球可能超过 100...
[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘 > 5月12日Google在Android Show上同时发布Gemini Intelligence和Gboard Rambler。一个让AI跨app直接操作你手机上的任何应用,一个把免费语音输入预装进默认键盘。两件事往同一个方向指:当模型之间的差距在缩小,谁已经握着电源键和键盘,谁赢。 懒人包:先看那个12年前写死的限制。iOS从2014年起禁止第三方键盘访问麦克风,创业公司只能靠维持后台音频会话绕过,代价是蓝牙冲突和耗电。Google的Rambler不需要:它在系统层。这个物理级别的壁垒,不是任何一家语音输入创业公司靠产品迭代能跨过去的。另一边,Claude Code这周推出的/goal功能在群里炸了锅,给个目标就让AI无限烧token跑,有人兴奋有人骂。但这件事和Google双发在讲同一个逻辑:AI工具的下半场,竞争变量从模型质量移到了入口位置和信任机制。 Google一天发了两样东西,打的都不是模型战 鸭哥昨天连续发了两篇文章,一篇讲Google的Gemini...