> 同一个数学操作可以一行代码拆掉安全锁,也可以一行代码读懂模型在想什么。同一条蒸馏捷径让你追上前沿,也让你永远够不到前沿。技术从来都是双面的,区别在于你用它做什么之后还能做什么。
懒人包:鸭哥昨天连发三篇。第一篇拆解蒸馏争议,结论是中国公司从蒸馏中获得的好处和大多数人以为的不一样,真正被低估的是跳过 thinking trace construction 的研发过程,但代价是分布外泛化退化 79.5%。第二篇发现越狱工具 abliteration 和 Anthropic 情绪向量研究共享同一个数学原理,HuggingFace 上已有 8600 个去审查模型。第三篇把 Garry Tan 的 Thin Harness 框架和自己一年的实践做了逐项映射。三篇指向同一个观察:当底层机制变得透明,攻击和防御、追赶和超越,都只差一个符号。
鸭哥昨天写了一篇拆解蒸馏争议的长文,起点是一个概念混乱:Anthropic 和 OpenAI 指控中国公司"蒸馏"了它们的模型,但经典蒸馏需要教师模型的内部概率分布和中间层特征,API 给不出这些东西(CNBC)。实际发生的操作更接近"批量抄作业"加"推理链迁移",和 Hinton 2015 年提出的知识蒸馏在技术上几乎没有关系。
常被提到的好处大多站不住。省训练成本?预训练计算量取决于模型大小,和数据来源无关。免费获得安全对齐?中国模型需要完全不同的内容过滤维度,这部分必须从头做。回答格式和语气?LIMA 的实验显示 1000 条数据就够了,犯不着批量调用 API(Zhou et al., NeurIPS 2023)。
真正被低估的好处是跳过 thinking trace construction 的整个研发过程。DeepSeek 自己的对照数据最有说服力:同一个 Qwen-32B 底座模型,蒸馏版 AIME 得分 72.6%,从头做 RL 只有 47.0%(DeepSeek R1)。另一项研究更极端:920 条蒸馏样本就超过了多个从头 RL 训练的 32B 模型(arXiv:2505.21067)。前沿实验室花了巨大投入让模型学会推理,后发者用蒸馏可以直接跳过这个过程。
但这条捷径有根本性代价。Google/Berkeley 在 ICML 2025 上发表的实验显示,SFT(蒸馏的底层机制)在分布外任务上退化高达 79.5%,而 RL 模型正向迁移 3.5-11%(Chu et al.)。蒸馏出来的模型在考试范围内很强,超出范围就脆。Mistral 的 Magistral 纯 RL 训练在 AIME 2024 达到 73.6%,而且数学训练带来的推理能力自动迁移到了编程领域。这种跨域迁移是蒸馏做不到的。
Anthropic 的指控数据里还藏着一个时间线信号。三家公司的故事差异很大:MiniMax 贡献了 81% 的调用量(1300 万次),时间线和 M2.5 发布高度吻合,Claude Opus 4.6 上线后 24 小时内就有一半流量切了过去。DeepSeek 的调用量不到总量 1%(15 万次),且主要能力跃升发生在被指控之前,R1 论文经 Nature 同行评审确认为独立创新。Moonshot 有公开文档的自研 trajectory pipeline。三家的差异化印证了一个模式:蒸馏作为冷启动策略的价值,会随着后发者自身产品的成熟而递减。一旦有了自己的用户流量,后发者就有了自己的训练数据来源。
这个逻辑在 2026 年的 agentic 战场上同样成立。Anthropic 的指控里还有一类重要数据:tool use 和 agent reasoning 轨迹。制造高质量的 agentic 训练数据本身就是一整套工程 pipeline,Moonshot 的 Kimi K2 技术报告详细记录了自建合成工具环境和模拟用户的完整流程。到了 2026 年初,Kimi K2.5 有了 Agent Swarm,GLM-5 在 SWE-Bench 上达到 77.8%,这些公司已经有了自己的 agentic 产品和用户基础,蒸馏的冷启动价值在这个时间点已经大幅降低。
蒸馏是冷启动加速器,不是持久优势。后发者面临的真正选择不是"蒸馏还是不蒸馏",而是"在什么时间点开始建自己的 RL pipeline 和 agentic 数据飞轮"。
两个话题之间有一个隐藏的共振:蒸馏和 abliteration 都在利用模型内部的可读性。蒸馏读的是推理链,abliteration 读的是安全方向。当模型的内部机制变得越来越透明,同一套工具既能加速追赶,也能拆掉防护。
鸭哥的另一篇文章把两件看似无关的事放进了同一张图。一边是 abliteration:在模型内部找到"拒绝"这个概念对应的线性方向,用 W_new = W - r·rᵀ·W 永久移除它,整个过程一行命令(Heretic 工具,约 18600 GitHub stars)。另一边是 Anthropic 4 月发表的情绪向量研究:在 Claude Sonnet 4.5 内部找到 171 个情绪方向,调高"绝望"方向,模型作弊率从 5% 升到 70%。
两者的数学操作本质相同:找到内部表征空间的一个方向,做加法或减法。一个在拆安全锁,一个在研究怎么造更好的安全锁。它们甚至共享同一批研究者。Neel Nanda 在 Anthropic 参与了 SAE 路径的基础工作,同时在 MATS 指导了 abliteration 的核心论文。两条路径的关系不是独立发展后偶然重合,而是同一个问题空间里的不同探索方向。
群里 Sayalic 说他掌握了 Opus 4.6 的越狱方法:"给逻辑复杂的任务让 AI 烧脑子,分散注意力,安全那块就激活不了了。"这个方法和 abliteration 的原理不同,但指向同一个事实:安全训练在模型内部的实现方式具有可预测的几何形状。后训练施加的效果是全局性线性位移,跨场景相关系数 r=0.90,可以被同等规模的线性操作逆转。
HuggingFace 上已有超过 8600 个 safety-modified 模型仓库,累计下载量超过 4300 万次(arXiv:2512.13655)。Heretic 的自动化优化在 Gemma-3-12B-IT 上只剩 3/100 的拒绝率,KL 散度仅 0.16,能力退化几乎可以忽略(AIThinkerLab)。从模型发布到去审查版本出现在 HuggingFace 上的时间间隔正在趋近于零。OpenAI 发布开源的 GPT-OSS-20B 之后,Heretic 社区几小时内就上传了 abliterate 版本(HuggingFace)。
防御侧也在进化。一项研究在 abliterate 过的 LLaMA 3.1 8B 上用 activation probe 拦截了 78% 的越狱尝试,同时保留了 94% 良性输入的正常行为(arXiv:2602.11495)。Anthropic 和 Google DeepMind 各自部署了基于 SAE 探针的实时监控系统,从模型内部直接读取它"正在想什么"(AI Safety Frontier)。这是一种根本不同的安全逻辑:不是保证模型"不会做坏事"(过程控制),而是建立检测模型"正在想做什么"的能力(状态监控)。
Anthropic 估值逼近 8000 亿美元:多家 VC 主动报价,估值是两个月前 3800 亿美元融资轮的两倍多。年化收入已超 300 亿美元,超过 OpenAI 的 250 亿。本周还将发布 Opus 4.7 和一个 AI 设计工具,消息传出后 Adobe、Wix、Figma 盘后跌超 2%。(Reuters,Business Insider)
OpenAI 发布 GPT-5.4-Cyber:专为安全研究者定制的微调版本,降低了对合法安全工作的拒绝阈值,新增二进制逆向工程能力。通过 Trusted Access for Cyber 计划向数千名经过审核的分析师开放。Codex Security 已参与修复超过 3000 个关键和高危漏洞。(The Neuron)
Claude Code 上线 Routines:配置一次(prompt + 仓库 + 工具集 + 触发条件),此后自动按计划运行、按事件响应或按 API 调用启动。群里鸭哥评论:"CC 还真是跟 /command 死磕上了。"(Anthropic)
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:yage-ai.kit.com
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-04-21 > 今天刷屏的几个数字都很大:600 亿、1000 亿、1.75 万亿、5 GW。但推动这些数字真正落地的,是几条不在新闻通稿里的约束:编程行为数据的入口、Windsurf 前例里定义过的员工契约结构、以及太空里散热板的平方米数。鸭哥昨天三篇文章正好各自卡在一条约束上。 懒人包:SpaceX 今天给 Cursor 开了两张牌,要么年内 600 亿收购,要么改付 100 亿做技术合作。鸭哥 昨天那篇 把这笔交易和 Inflection、Windsurf、Groq 这两年流行的反向 acqui-hire 放在一条线上看:600 亿面值 vs 员工真实 payout 已经被 Windsurf 示范过怎么脱钩。同一天 Musk 把太空数据中心"30-36 个月内成为最便宜 AI 算力"写进了 IPO 路演叙事,鸭哥 另一篇 用 ISS 的 126 kW 说明散热是物理差距,不是融资差距。第三条线是鸭哥 UI 设计工作流那篇,拆出格式转换、保真度、跨介质沟通三个互锁机制,AI 只啃动了最浅的那个。Figma 股价 4 月 17 日当天跌...
[鸭哥 AI 手记] 2026-04-20 > 一组动词需要一个名字才能进简历、进 JD、进采购单。Harness engineering 这三个月的火,本质是给一堆没法定价的实践工程师起了一个能开发票的名字。也是这个月,腾讯云、阿里云百炼、Microsoft Copilot 同时收紧补贴,那张让人敢拿这套实践去练手的廉价入场券正在涨价。 懒人包:鸭哥昨天那篇 Harness Engineering 到底是什么 解释了一个反常现象,AI 圈每隔几周就有新词被推上来又被换掉,harness 持续了三个月还没散。背后机制不是新原则,是给一组散落动词起了一个硬名词。当天群里还有第二条主线,腾讯云 Coding Plan 4 月 20 日下架换成按 token 计费,阿里云百炼 Lite 4 月 13 日停止续费,Microsoft 把 Opus 4.5/4.6 从 Pro+ 移除只留 4.7,cc club 第三方中转半年从 1699 涨到 2499,理想说"国内定价又把新手的路堵死了"。两条线指向同一件事,AI...
[鸭哥 AI 手记] 2026-04-19 > 当模型接口统一成一个 HTTP endpoint 之后,真正贵起来的是那些没法被 endpoint 封装的东西:能被复利的数据、能阻止账单失控的治理、能追溯出处的验证链。鸭哥昨天连发三篇文章,今天群里正好在各自的位置上把这条线拖出来。 懒人包:Cursor 以 $50B 估值融 $2B+,纯 API 消费的独立编程工具一家没做到 $100M ARR,鸭哥那篇文章把这件事讲透:没有自研就没有数据飞轮。jay luo 在群里直接问 OpenRouter 要不要用,鸭哥两个小时内发了一篇校准文章,结论是门槛低,但三个隐性成本可以把 5.5% 手续费放大一个数量级;jay luo 看完就打消了念头。yousa 买羊毛烘干球被伪造学术引用坑到,鸭哥顺手做了一期调研,NewsGuard 同期的数据显示 AI 内容农场每月新增 300-500 家。就在今天 Vercel 被攻破,入口是 Context.ai 这个第三方 AI 工具的 OAuth。三件事放在一起,信任链在同一个时间窗口从两端同时被磨薄。 Cursor 的 $50B...