[鸭哥 AI 手记] 2026-06-17: Fable 5 下线第五天,GLM-5.2 开源了


[鸭哥 AI 手记] 2026-06-17: Fable 5 下线第五天,GLM-5.2 开源了

懒人包:6 月 12 日美国政府一纸出口管制指令让 Fable 5 全球下线,四天后智谱以 MIT 许可证发布了 GLM-5.2,在 Artificial Analysis Intelligence Index 上拿下 51 分,成为开源模型里综合能力最强的那个。推理模型赛道的博弈焦点,正在从"谁会推理"转向"谁能被访问、花多少钱被访问"。同一天,鸭哥还写了另一件事:AI 系统里积攒的规则会随时间退化,一条半年前就该删除的 workaround,直到昨天还在被每一个新 agent 照搬执行。

Fable 5 下线,GLM-5.2 上线:推理模型的竞争已经从能力烧到了供应链

6 月 9 日 Anthropic 发布 Claude Fable 5,三天后就被美国商务部援引出口管理条例强制下线,原因是 Amazon CEO 向财政部报告其研究人员用 Fable 5 获取了可用于网络攻击的信息(The Guardian)。截至 6 月 17 日,Fable 5 和 Mythos 5 仍处于离线状态,Anthropic 高级技术人员已飞赴华盛顿与白宫官员会谈,但尚无恢复时间表(Forbes)。

就在这期间,智谱于 6 月 16 日发布了 GLM-5.2。MIT 开源许可证,744B 总参数量,在 Artificial Analysis Intelligence Index v4.1 上拿到 51 分,领先 DeepSeek V4 Pro(52 分 reasoning max 模式,但其标准配置为 44 分)和 Kimi K2.6(43 分),在与闭源模型的差距上缩到了约 10-15%(GPT-5.5 xhigh 为 60 分,Claude Opus 4.8 为 61 分)(Artificial Analysis)。训练侧用了 critic-based PPO 和自研 Anti-Hack 模块来防止 reward hacking,和 DeepSeek R1 的 GRPO 路线不同(z.ai/blog)。推理部署则是 Day 0 就适配了华为昇腾、寒武纪、摩尔线程等八家国产芯片平台。

价格方面,GLM-5.2 的 API 定价是每百万 token 输入 $1.40、输出 $4.40,约为 GPT-5.5 的五分之一,Fable 5 的九分之一,但远高于 DeepSeek V4 Pro 的 $0.435/$0.87(DeepSeek API)。订阅制 Coding Plan 对应的 token 包价格更低,这也是 Z-Code 作为获客入口能成立的经济基础。

鸭哥昨天在群里分享了一个观察:他的 bot 从微信聊天记录中发现,最近夸 GLM 的人多了很多,但几乎全是新用户,是从 Z-Code 开始入手接触 GLM 的。Z-Code 在群里的技术评价不高,被戏称为"Codex 克隆",但获客效果惊人。这恰好补上了 GLM-5.2 这枚子弹最需要的枪管:一个能让非开发者零成本上手的入口。

Fable 5 下线暴露了一个新问题。过去一年,reasoning model 赛道的竞争围绕"谁家模型更会推理"展开,RLVR 配方、蒸馏数据、benchmark 分数是主战场。鸭哥在昨天发布的推理模型四年史里把这条演化线完整拆开了:推理能力从 2022 年的 CoT prompting 开始就是一条连续演化线,真正的分水岭在 2024 年下半年,是推理第一次变成可计费、可调度的资源。而现在,竞争正在跨入第三个阶段:谁的模型能被访问,以及用什么芯片、花多少钱来跑。

GLM-5.2 在八家国产芯片平台上的 Day 0 适配,和 Fable 5 被美国政府一纸指令叫停,讲的是同一件事的两个面。开源权重加上多芯片部署能力,本质上是一种不依赖单一路径的访问确定性。在 Fable 5 不知何时回归、GPT-5.5 推理成本仍然高昂的窗口期,这种确定性的价值可能比多两个点的 SWE-bench 分数更大。


一条半年前的规则,和一次迟到的审计

鸭哥昨天还发了一篇和模型竞争无关的文章,但它指向的问题和上面的事共享同一个形状。

在老鸭汤的规则系统里,有一条半年前写下的 workaround:调用 Claude Code 时额外加一个特定参数。这条规则来自 2026 年初的一个 bug,Claude Code 的自适应思考机制有缺陷,特定情况下会把推理资源分配到零。排查之后确认了规避方法,写成规则,末尾还补了一句"如果上游修复了就回退"。半年前做审计时发现,这个 bug 几个月前就被修复了,规则还在。每一个新接手的 agent 读到它,原样照做,没人知道为什么。

这就是鸭哥在如果给 AI 办一所大学里讲的核心问题。经验变成文件的那一刻,发生了一次有损压缩。几百行报错日志、版本号、排查推理过程,最后压成一行指令。新 agent 读到它,手中是一个没有前因的结论。它不知道这条规则保护什么,不知道什么情况下可以不再遵守。它只能遵守。一个丢失了因果链的行为规则被当成不可质疑的指令来执行。

同一次审计还翻出了更多问题:索引里有重复条目,有断链指向已经改名的项目,公理系统的统计数字和实际数量对不上。每个问题的源头都一样:系统只有 add 操作,没有 retire 操作。人类组织管这个叫陈规陋习,AI 系统里出现了一样的东西,只是积累速度快了十倍。

群里也有类似的体验。有人提到 Claude Code "越来越不听话了,skill 里写好的 step 都能跳过";另一位群友说没关 CC 的 memory,"现在经常莫名其妙给我做一些奇怪的决定"。这些抱怨指向同一个根因:规则和记忆越积越多,但没有机制去判断哪条还管用。

鸭哥提出的解法是"裸 agent 回归测试":定期派一个不携带任何旧规则的 agent 进入当前环境执行真实任务。如果它顺利完成了,说明那些旧规则已经失效;如果它碰壁了,碰壁过程本身会生成一份新鲜的发现上下文,替换掉旧文件里那行干瘪的结论。考试、教科书修订和系统保鲜,三件事合在一起做。

Claude Code 目前没有官方的规则过期或清理机制。CLAUDE.md 在 session 启动时一次性加载,之后不会主动检查内容是否过期。OpenAI Codex 更基础,连 session 间记忆都没有。学术界最近有一篇 arXiv 论文《AI Agents Need Memory Control Over More Context》(2026)专门讨论了这个问题,把它描述为"transcript replay 引入的记忆毒化"。而在开源领域,鸭哥的 context-infrastructure 项目(GitHub)三个月内拿到了 602 个 star、152 个 fork,说明这个问题戳中的痛点不只他一个人有。

两类问题看似不相关,但共享同一个结构。模型能力会随着竞争对手的追赶而贬值;规则系统也会随着环境的演变而老化。两者的维护成本都不在前期的建造上,而在后期的退役管理上。Fable 5 被叫停暴露的是访问控制的风险,老鸭汤的过期规则暴露的是知识生命周期管理的缺失。GLM-5.2 用多芯片适配换取了供应链层面的确定性,裸 agent 回归测试用环境反馈换取了规则层面的确定性。换成同一个句式:两套方案都在试图给一个持续老化中的系统加上自检机制。在一个所有东西都在加速积累的时代,知道什么时候该删,可能比知道该加什么更难。


也值得知道

微信支付上线"AI 专属卡",agent 支付迈出第一步:6 月 17 日微信钱包内上线了为 AI 智能体支付场景设计的虚拟卡,目前接入 WorkBuddy 和 QClaw。资金与主账户隔离,每笔交易需要用户验密确认。尚非全自主支付,但首次打通了 agent 发起支付的技术链路(虎嗅)。

OpenAI 与 Anthropic 双双秘密提交 IPO,估值 9,650 亿美元:Anthropic 年化收入约 470 亿美元,已秘密提交 IPO 申请;OpenAI 也在同一时期提交。两家公司同时在政府监管、广告业务和上市窗口上角力(CNBC)。

Nvidia Blackwell 将推理 token 成本压低 35 倍:GB300 NVL72 每 GPU 生成 6,000 token/秒,每百万 token 成本降至 $0.12(Hopper 为 $4.20)。这意味着未来半年内推理成本还将大幅下降,对 GLM-5.2 这类以性价比为卖点的模型构成新的定价压力(Business Insider)。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:daily.yage.ai

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-16: Agentjacking:85%成功率劫持coding agent 懒人包:Tenet Security 本周披露的 Agentjacking 攻击在 100 多个 coding agent 实例上达到了 85% 成功率。2388 个组织的 Sentry DSN 暴露在外,攻击者不需要攻破任何安全产品,只需要把恶意指令藏进你的 agent 会去读的数据里。同一天鸭哥的另一篇文章分析了为什么命令行 allowlist 挡不住 AI agent,以及 Anthropic 和 OpenAI 不约而同走向的答案——用第二个 AI 审查行为,而不是匹配命令字符串。两件事合在一起,指向同一个底层缺口:agent 的信任模型还没有追上它的能力边界。 你的 Sentry 错误报告,可能不是你的应用产生的 你给 Claude Code 接了一个 Sentry MCP server。几行配置,agent 每天帮你查错误、修 bug。你说"帮我修一下 Sentry 里的未解决问题"。agent 照做了。它通过 MCP 拉到一条错误报告,读到一段 npx...

[鸭哥 AI 手记] 2026-06-15: Meta 73万亿token后的算账时刻 懒人包:Meta员工Ash Bhat在公司内网搭了个排行榜,把85000个同事的AI token消耗全列了出来,RPG风格分级。最猛的那个人30天烧了2810亿token,Zuckerberg和CTO都没进前250。这个排行榜被曝光后立刻下架,但它揭开的盖子收不回去了。同一天,鸭哥发了两篇文章,一篇从Meta的73万亿token账单出发讲AI管理纪律的回归,一篇从两个大厂工程师对AI的相反判断出发讲复杂度的来源。两件事合起来指向同一件事:AI补贴结束后,从组织到个人都在被迫重新算账。不只是钱,更是时间和价值的账。 Meta的73万亿token账单,和Bosworth的两个月反转 Ash Bhat的Claudeonomics排行榜上线两周后被《The Information》曝光,随即主动下架。但数字已经流出:85000人的公司30天消耗了73万亿token,数十亿美元量级。最猛的那个人按公开价粗算约烧了$420万。排行榜分了Token Legend、Session Immortal、Cache...

[鸭哥 AI 手记] 2026-06-14: Claude Code 明天禁 -p,AI 工具蜜月结束 懒人包:6 月 15 日起,Claude Code 正式禁止 -p 模式。34.5 万 star 的 OpenClaw 和无数基于 -p 的自动化脚本明天全部失效。这不是一家公司的政策调整,它是整个 AI 工具生态从"随便用"切换到"按规矩用"的分水岭。同一天的两组群聊讨论恰好展示了这个转折的正反两面:一边是开发者连夜找绕过方案,另一边是谷雨用 AI 五分钟搞定了一年半没做的个人健康数据自动化。有意识积累数据的人,正在和没有积累的人拉开指数级差距。第三个话题指向同一个方向:AI coding 正在把组织本来就有的工程问题加速放大,PR 涨了缺陷也涨了,模型够强,跟不上的是工程纪律。 Claude Code -p 禁令:蜜月结束的信号 群里消息从下午开始密集起来。谷雨说"明天开始 ban,得从俩 max 一个 pro 换成三 pro"。有人直接表示"Fable 5 永久禁用了,有啥说的"。Oversea 当场给出了一个完整的 Claude Interactive Bridge...