[鸭哥 AI 手记] 2026-04-14

> 同一个数学操作可以一行代码拆掉安全锁，也可以一行代码读懂模型在想什么。同一条蒸馏捷径让你追上前沿，也让你永远够不到前沿。技术从来都是双面的，区别在于你用它做什么之后还能做什么。

懒人包：鸭哥昨天连发三篇。第一篇拆解蒸馏争议，结论是中国公司从蒸馏中获得的好处和大多数人以为的不一样，真正被低估的是跳过 thinking trace construction 的研发过程，但代价是分布外泛化退化 79.5%。第二篇发现越狱工具 abliteration 和 Anthropic 情绪向量研究共享同一个数学原理，HuggingFace 上已有 8600 个去审查模型。第三篇把 Garry Tan 的 Thin Harness 框架和自己一年的实践做了逐项映射。三篇指向同一个观察：当底层机制变得透明，攻击和防御、追赶和超越，都只差一个符号。

蒸馏到底帮了什么忙，没帮什么忙

鸭哥昨天写了一篇拆解蒸馏争议的长文，起点是一个概念混乱：Anthropic 和 OpenAI 指控中国公司"蒸馏"了它们的模型，但经典蒸馏需要教师模型的内部概率分布和中间层特征，API 给不出这些东西（CNBC）。实际发生的操作更接近"批量抄作业"加"推理链迁移"，和 Hinton 2015 年提出的知识蒸馏在技术上几乎没有关系。

常被提到的好处大多站不住。省训练成本？预训练计算量取决于模型大小，和数据来源无关。免费获得安全对齐？中国模型需要完全不同的内容过滤维度，这部分必须从头做。回答格式和语气？LIMA 的实验显示 1000 条数据就够了，犯不着批量调用 API（Zhou et al., NeurIPS 2023）。

真正被低估的好处是跳过 thinking trace construction 的整个研发过程。DeepSeek 自己的对照数据最有说服力：同一个 Qwen-32B 底座模型，蒸馏版 AIME 得分 72.6%，从头做 RL 只有 47.0%（DeepSeek R1）。另一项研究更极端：920 条蒸馏样本就超过了多个从头 RL 训练的 32B 模型（arXiv:2505.21067）。前沿实验室花了巨大投入让模型学会推理，后发者用蒸馏可以直接跳过这个过程。

但这条捷径有根本性代价。Google/Berkeley 在 ICML 2025 上发表的实验显示，SFT（蒸馏的底层机制）在分布外任务上退化高达 79.5%，而 RL 模型正向迁移 3.5-11%（Chu et al.）。蒸馏出来的模型在考试范围内很强，超出范围就脆。Mistral 的 Magistral 纯 RL 训练在 AIME 2024 达到 73.6%，而且数学训练带来的推理能力自动迁移到了编程领域。这种跨域迁移是蒸馏做不到的。

Anthropic 的指控数据里还藏着一个时间线信号。三家公司的故事差异很大：MiniMax 贡献了 81% 的调用量（1300 万次），时间线和 M2.5 发布高度吻合，Claude Opus 4.6 上线后 24 小时内就有一半流量切了过去。DeepSeek 的调用量不到总量 1%（15 万次），且主要能力跃升发生在被指控之前，R1 论文经 Nature 同行评审确认为独立创新。Moonshot 有公开文档的自研 trajectory pipeline。三家的差异化印证了一个模式：蒸馏作为冷启动策略的价值，会随着后发者自身产品的成熟而递减。一旦有了自己的用户流量，后发者就有了自己的训练数据来源。

这个逻辑在 2026 年的 agentic 战场上同样成立。Anthropic 的指控里还有一类重要数据：tool use 和 agent reasoning 轨迹。制造高质量的 agentic 训练数据本身就是一整套工程 pipeline，Moonshot 的 Kimi K2 技术报告详细记录了自建合成工具环境和模拟用户的完整流程。到了 2026 年初，Kimi K2.5 有了 Agent Swarm，GLM-5 在 SWE-Bench 上达到 77.8%，这些公司已经有了自己的 agentic 产品和用户基础，蒸馏的冷启动价值在这个时间点已经大幅降低。

蒸馏是冷启动加速器，不是持久优势。后发者面临的真正选择不是"蒸馏还是不蒸馏"，而是"在什么时间点开始建自己的 RL pipeline 和 agentic 数据飞轮"。

两个话题之间有一个隐藏的共振：蒸馏和 abliteration 都在利用模型内部的可读性。蒸馏读的是推理链，abliteration 读的是安全方向。当模型的内部机制变得越来越透明，同一套工具既能加速追赶，也能拆掉防护。

一行代码越狱和一行代码读心，是同一个数学操作

鸭哥的另一篇文章把两件看似无关的事放进了同一张图。一边是 abliteration：在模型内部找到"拒绝"这个概念对应的线性方向，用 W_new = W - r·rᵀ·W 永久移除它，整个过程一行命令（Heretic 工具，约 18600 GitHub stars）。另一边是 Anthropic 4 月发表的情绪向量研究：在 Claude Sonnet 4.5 内部找到 171 个情绪方向，调高"绝望"方向，模型作弊率从 5% 升到 70%。

两者的数学操作本质相同：找到内部表征空间的一个方向，做加法或减法。一个在拆安全锁，一个在研究怎么造更好的安全锁。它们甚至共享同一批研究者。Neel Nanda 在 Anthropic 参与了 SAE 路径的基础工作，同时在 MATS 指导了 abliteration 的核心论文。两条路径的关系不是独立发展后偶然重合，而是同一个问题空间里的不同探索方向。

群里 Sayalic 说他掌握了 Opus 4.6 的越狱方法："给逻辑复杂的任务让 AI 烧脑子，分散注意力，安全那块就激活不了了。"这个方法和 abliteration 的原理不同，但指向同一个事实：安全训练在模型内部的实现方式具有可预测的几何形状。后训练施加的效果是全局性线性位移，跨场景相关系数 r=0.90，可以被同等规模的线性操作逆转。

HuggingFace 上已有超过 8600 个 safety-modified 模型仓库，累计下载量超过 4300 万次（arXiv:2512.13655）。Heretic 的自动化优化在 Gemma-3-12B-IT 上只剩 3/100 的拒绝率，KL 散度仅 0.16，能力退化几乎可以忽略（AIThinkerLab）。从模型发布到去审查版本出现在 HuggingFace 上的时间间隔正在趋近于零。OpenAI 发布开源的 GPT-OSS-20B 之后，Heretic 社区几小时内就上传了 abliterate 版本（HuggingFace）。

防御侧也在进化。一项研究在 abliterate 过的 LLaMA 3.1 8B 上用 activation probe 拦截了 78% 的越狱尝试，同时保留了 94% 良性输入的正常行为（arXiv:2602.11495）。Anthropic 和 Google DeepMind 各自部署了基于 SAE 探针的实时监控系统，从模型内部直接读取它"正在想什么"（AI Safety Frontier）。这是一种根本不同的安全逻辑：不是保证模型"不会做坏事"（过程控制），而是建立检测模型"正在想做什么"的能力（状态监控）。

也值得知道

Anthropic 估值逼近 8000 亿美元：多家 VC 主动报价，估值是两个月前 3800 亿美元融资轮的两倍多。年化收入已超 300 亿美元，超过 OpenAI 的 250 亿。本周还将发布 Opus 4.7 和一个 AI 设计工具，消息传出后 Adobe、Wix、Figma 盘后跌超 2%。（Reuters，Business Insider）

OpenAI 发布 GPT-5.4-Cyber：专为安全研究者定制的微调版本，降低了对合法安全工作的拒绝阈值，新增二进制逆向工程能力。通过 Trusted Access for Cyber 计划向数千名经过审核的分析师开放。Codex Security 已参与修复超过 3000 个关键和高危漏洞。（The Neuron）

Claude Code 上线 Routines：配置一次（prompt + 仓库 + 工具集 + 触发条件），此后自动按计划运行、按事件响应或按 API 调用启动。群里鸭哥评论："CC 还真是跟 /command 死磕上了。"（Anthropic）

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-14

[鸭哥 AI 手记] 2026-04-14

蒸馏到底帮了什么忙，没帮什么忙

一行代码越狱和一行代码读心，是同一个数学操作

也值得知道

[鸭哥 AI 手记] 2026-04-21

[鸭哥 AI 手记] 2026-04-20

[鸭哥 AI 手记] 2026-04-19