[鸭哥 AI 手记] 2026-06-22: 代码翻倍 bug 涨 30 倍，AI 编程漏算了恢复这一环

懒人包：金松在群里提了一句：用了 AI 写代码后，bug 翻了 30 倍不止，手头好几个项目都超过 22 万行。linhow 跟着说，能清楚意识到 bug 涨了 30 倍的团队，十个里面也就一两个；一大半还陷在效率提升 30 倍的兴奋里没出来。AI 把产出代码的成本砸到了地板，但犯错的代价纹丝不动。代码那一层已经有人在解决恢复问题，只是远没铺开；设计那一层的错误，连怎么恢复都还没人想过。

让错误更便宜：benchmark 从来不测的那一项

鸭哥昨天写了一篇《让 AI 更准，还是让错误更便宜》，切开了一个平时很少有人注意的区分：AI 编程的靠谱程度可以拆成两条线，一条是让模型错得更少，另一条是让错了之后收拾起来不费劲。过去两年整个行业的投入几乎全堆在第一条线上，第二条线只有 Replit 一家在系统性地做。

Forbes 六月份的报道给金松的数字配了一个宏观注脚：AI agent 产出的代码量涨了 180%，真正交付的软件只多了 30%（Forbes）。Google DORA 2025 的统计指向同一个结论：AI 采纳率提高 90%，bug 率跟着涨了约 9%，code review 的工作量涨了 91%（SonarSource）。一位上市公司的 CEO 告诉 Replit 创始人 Amjad Masad，公司里 25% 到 50% 的代码是 AI 写的，调试、回滚和安全审计又把编写环节省下来的时间全部吃回去了，工程团队的生产力几乎原地踏步（x.com/amasad）。多写出来的代码没有变成多交付的软件，中间蒸发掉的那一部分，是恢复成本在反向定价。

这个缺口从哪儿来的，线索藏在 benchmark 的设计思路里。市面上的 AI coding benchmark，没有一个把可回滚性当成评测维度。SWE-bench 看的是 resolved rate，LiveCodeBench 看的是 Pass@1，全都在问模型最终对不对，从来不管做错了以后怎么收场。SWE-bench Verified 已经让各家刷到了 93.9%，OpenAI 今年 2 月公开说不再用它衡量前沿编码水平了，内部审计翻出 138 个有问题的任务，六成以上的测试自身就带着缺陷，存在答案泄漏（OpenAI）。

打个比方，就像车评只量油耗和百公里加速，刹车距离压根不在评分表里。benchmark 这套文化把整个行业的视线锁在一件事上：模型能不能答对。一旦答错怎么收拾，没有人给这个环节打分。

厂商顺着同一把尺子做优化，一点也不意外。Anthropic 把 Opus 4.8 的 honesty 缺陷逃逸概率压低了大约 4 倍，优化箭头仍然指着正确率。至今没有一家工具厂商在自己的产品指标里列过回滚一次需要多少时间。benchmark 量什么，厂商就追什么；benchmark 不碰的维度，在每轮评测报告里自动隐身。

工具那一侧的不对称，程度一点不轻。Replit 是唯一把全栈可回滚做进了基础设施层的厂商：它托管了所有东西，自然能对所有东西拍快照；它的目标用户本来就不是程序员，看不懂 diff，回滚是唯一的安全带。Claude Code 的 /rewind 命令是社区在 GitHub issue #6001 底下和 Reddit 全大写标题的骂声里硬讨来的补丁，而且它不追踪 bash 命令的执行，而 bash 正好是 agent 风险最高的一类操作。GitHub 联合创始人 Scott Chacon 的 GitButler 在 2026 年拿到了 1700 万美元 A 轮，The Register 用的标题是「Git is unprepared for the AI coding tsunami」（The Register；a16z）。

马工在群里说 AI 写的代码是稳定质量的，可预测的平庸就是最好的。这句话成立需要一个前提：有一层便宜的恢复机制托底。恢复层缺席的时候，稳定的平庸不过是稳定的 bug。

回滚够不到的墙：当设计取舍也变成了代码

有一类错误不在代码那一层，藏在设计共识这一层，这种错误没有便宜的恢复路径。鸭哥昨天还写了另一篇《用 AI 重构子系统，到底是在清屎山还是在拆承重墙》，讲了一个故事：一位工程师用 AI 重写了仓库路由子模块，回归测试一路绿，却被同事按住了。按住他的人说：你拿自己当消费者来改，可是它跑在我负责的系统里，半夜出了问题被电话叫醒的是我。

这里的问题根子不在代码写得好不好。旧代码里有一行看起来莫名其妙的超时重试逻辑，它的来历是前年一次网络抖动，任务重复下发，当天所有机器瞬时打满。AI 做重构的时候看见一个 if 语句，看不见 if 语句背后的那一天。回归测试能覆盖你知道的风险，覆盖不了你不知道的风险。触发条件是三年才碰上一次的网络异常，不可能为每一种异常都预先写好测试用例。

那位老同事真正在说的是：设计上的取舍还没在团队里讨论过一刀，就已经变成了几千行 diff。代码写得再漂亮，绕不过这一关。回滚可以把代码状态拉回去，拉不回团队对设计取舍的共识。你花一天用 AI 写出来的代码，同事一口回绝，亏掉的不是代码本身（代码随时可以重写），是那一整天的认知负债已经造出来了，而同事们的 review 节奏还停在两周处理一个 diff 的频率上，现在一周要面对三个新 diff。维护风险悄悄落到了那个半夜会被叫醒的人身上。

从前人手写代码的速度本身，承担了一项隐性功能：它逼着团队在中间停下来，把话说明白。资深工程师做大的重构，会先写设计文档，大家吵过一轮才碰键盘。如今 AI 把落地的成本压到几乎免费，你的输出速度快过了团队讨论的节奏，争议用同样的速度变成了几千行 diff。设计取舍这件事，工作量没有减少一丝一毫，只是以前编码速度自然卡出来的讨论窗口，现在凭空消失了。慢曾经是团队达成共识的同步器，AI 把它静悄悄地卸载了，没有装上任何替代机制。

这件事的后果，不是代码写得太快，是讨论跟不上代码冒出来的节奏。代码本身没什么错，但一份没经过共识的设计决策塞进几千行 diff，效果等同于把需要当面吵明白的问题压后到了线上事故以后。

Faros.ai 的数据印证了这一层：开发者合入的 PR 数量，2025 年涨了 98%，2026 年只涨了 16.2%；而 PR review 的中位耗时，2025 年涨了 91%，2026 年直接跳了 441%（Faros.ai）。代码生成端还在提速度，审查端已经变成了新瓶口。Michael Feathers 在《修改代码的艺术》里提过一个办法：动手重构前先用 characterization tests 把代码当前实际在做什么拍一张快照，因为大量不变量从来没有写进文档或测试（understandlegacycode.com）。

axton 在群里扔了一句：现在已经没有 code 的问题了，全部都是架构的问题。金松补充说，代码量大到一定程度，AI 会自己产生一种我读完了、我掌握了的幻觉，追问到细节的时候它回一句：这里我设计了兜底方案，没问题。

也值得知道

Anthropic 40 万条 Claude Code 数据的真相：群里流传着一张说法：管理者在 AI 编程上吊打程序员。原始研究的实际结论是，非程序员和程序员的成功率差距已经缩小到了 7% 以内，管理岗略高于程序员，远不到吊打的程度。用户驱动了大约 70% 的规划决策，agent 承担了大约 80% 的执行工作。网上传的沃顿教授说管理是终极 AI 超能力，经核实没有出处（Anthropic）。

陶哲轩：AI 几周前突破数学形式化临界点：原本需要志愿者花上几周完成的 Lean 形式化工作，现在 AI 几小时就能跑完。但陶哲轩指出，生成端的速度提了不止一个量级，验证和消化那一头仍然卡在人类的阅读带宽上，全局性的重构 AI 还够不到（36氪）。这个形状和本期讨论的问题完全一致：加速的只是产出代码或证明的那个动作，理解的代价和验证的带宽并没有跟着降价。

字节 Seedance 2.5 即将发布：原生支持 30 秒长视频、原生 4K，单次最多接收 50 个参考输入。2.0 版本也同步升级到原生 4K。目前面向企业测试，预计 7 月初上线（来源）。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：daily.yage.ai

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-22: 代码翻倍 bug 涨 30 倍，AI 编程漏算了恢复这一环

[鸭哥 AI 手记] 2026-06-22: 代码翻倍 bug 涨 30 倍，AI 编程漏算了恢复这一环

让错误更便宜：benchmark 从来不测的那一项

回滚够不到的墙：当设计取舍也变成了代码

也值得知道

[鸭哥 AI 手记] 2026-06-21: 约束文档比生成的代码还多

[鸭哥 AI 手记] 2026-06-20: 每挣一块花两块六，AI泡沫的三重面孔

[鸭哥 AI 手记] 2026-06-19: AlphaFold之父跳槽Anthropic，判断力在重新定价