[鸭哥 AI 手记] 2026-06-25: 静默写入 640 TB,磁盘检查完全看不出


[鸭哥 AI 手记] 2026-06-25: 静默写入 640 TB,磁盘检查完全看不出

[鸭哥 AI 手记] 2026-06-25: 静默写入 640 TB,磁盘检查完全看不出

懒人包:OpenAI Codex 正在静默磨损你的 SSD,年化写入量达 640 TB,但系统工具无法察觉。德国铁路因一次计划内换件导致全国列车停运约两小时,暴露出备用系统缺乏真实测试的隐患。多轮 agent 的主要推理开销由 KV cache 命中率决定,prefill 阶段甚至占据了账单的 85% 到 95%。鸭哥昨天共发布了 3 篇文章。

磁盘检查看不出的 640 TB 物理写入

OpenAI Codex 静默往用户 SSD 年化写入 640 TB,已逼近消费级硬盘额定寿命

Codex CLI 的 SQLite 写入存在严重缺陷。由于开发者将 TRACE 级别的日志输出硬编码在代码中,直接绕过了 RUST_LOG 环境变量。这样做在短短 21 天内写入了 37 TB 数据,折合年化达 640 TB。相比之下,三星 990 PRO 与 WD SN850X 这类 1TB 固态硬盘的官方质保写入量也仅有 600 TBW。因为保修期按时间或写入量先到者为准计算,加上 MacBook 的固态硬盘直接焊接在主板上,一旦损坏只能整体更换主板。

在这里常规工具全都失效了。du 命令显示的文件体积变化微乎其微,Finder 也保持静默。这是因为日志数据直接流向物理写入层,而常规工具检测的是文件系统层,两者统计脱节,导致隐患持续了整整三个月。直到 Apache Flink PMC 成员 Rui Fan(GitHub @1996fanrui)于 6 月 14 日在 issue #28224 中公开了 SMART 异常监控,社区才关注到此案,随后该话题在 6 月 22 日登上 Hacker News 首页并引发 The Register 的后续报道。

发生这种故障的根源,是 Codex 在 tracing 库中设置了 with_default(Level::TRACE),在代码层面直接全量捕获日志,完全忽略了外部环境变量。虽然开发团队在 rust-v0.142.0 版本中修复了该问题并削减了约 85% 的日志写入,但截至 6 月 23 日,仍有 6 个相关的 issue 未能解决,其中针对 Windows 桌面包的 issue #29556 依然 open。

换句话说,普通的硬盘空间监控手段在这里毫无用处。鸭哥在文章中列出了三条应急止损方案和检测指令。核心思路是定期检查固态硬盘的 SMART 计数器,而不是依赖常规的文件空间体积。


一次计划内换件,全德国的火车停了

一次计划内更换部件,停了全德国的火车

不仅个人设备会因为隐藏的物理漏洞受损,庞大的公共基础设施也面临相似的安全盲区。6 月 23 日深夜,德国覆盖 33,400 公里路网和 5,400 座车站的 GSM-R 通信系统全国瘫痪,全德列车被迫停运约两小时。德国铁路基础设施运营方 DB InfraGO 的负责人 Philipp Nagl 随后证实,事故由一次计划内的软硬件部件更换触发。GSM-R 是一套自 2000 年起在欧洲铁路广泛使用的专用 2G 通信网,主要作用是向列车推送移动授权。一旦这条无线链路中断,列车的安全保护机制就会自动介入并紧急刹车。

这样做暴露出典型的分布式系统反模式,也是鸭哥昨天分析的核心。虽然设计了主备双机,但由于两侧运行着完全相同的代码、配置与更换流程,纸面上的高可用在真实的单一风险面前形同虚设。这种共因失效并非首例,2024 年 7 月 CrowdStrike 推送 channel file 291 导致的大范围崩溃,以及 2022 年 5 月荷兰 ProRail 的 GSM-R 系统故障都是同类机制。更巧的是,德国与荷兰的这套 GSM-R 核心网络,都出自供应商 Nokia。

不过,频繁的系统脆弱性也直观地反映在运营数据上。德国铁路的长途准点率已从 2005 年的 85% 跌至 2025 年的 60.1%,到了 2026 年 2 月更是探底至 59.4%。相比之下,邻国瑞士 SBB 维持了约 94% 的准点率,且瑞士的晚点评判标准是 3 分钟,比德国采用的 6 分钟更为严苛。究其原因,系统缺乏弹性的故障隔离机制也是关键。英国铁路在主控失效时允许进入 75 英里时速的降级运行规程,而德铁系统在面对异常时却只有全开或全关两个选项。


Agent 推理成本的第一变量不是模型

KV cache 命中率:Agent 推理的第一成本杠杆

这种系统深层的隐性成本,在 AI 领域同样存在。大家往往只盯着模型 API 报价,却忽略了多轮 tool-calling agent 的计算开销。一个典型的 ReAct agent 执行 10 次工具调用,只产出 500 个 output token,却在后台吃掉 80 万个 input token。云服务提供商 Spheron 的生产数据显示,prefill 阶段的开销占到 agent 推理总费用的 85% 到 95%。斯坦福团队的统计里,重新发送上下文这一项单独占掉 62% 的成本。真正抬高账单的并不是 output token 的标价,而是每一轮交互中不断累积并重新输入的冗余上下文。

针对这些冗余,目前的工程栈正在从三个层面进行优化。第一是压缩层,CompressKV 论文的研究表明,通过在注意力机制上精简,哪怕仅保留 3% 的 KV cache,也能在 LongBench QA 测试中保留 97% 的性能;在 Needle-in-a-Haystack 检索测试中,0.7% 的缓存容量就足以维持 90% 的准确率。第二是路由层,vLLM、SGLang 与 GKE 等框架通过 cache-aware 路由将请求派发给已有缓存的节点。第三是 API 层,例如 Anthropic 推出的 prompt caching,其缓存读取费用仅为标准输入的 0.1 倍。

不过,服务商提供的缓存机制也有坑。2026 年 3 月初,Anthropic 静默地把 prompt caching 的默认 TTL 从 1 小时压缩至 5 分钟。这一改动导致大量 agent 用户的 token 消耗速度涨了约一个数量级,开发者必须主动在请求中声明 "ttl": 3600 才能把有效期设回原样。

关键是,这种细节差异对开发者的钱包影响极大。根据 Requesty 发布的 2026 年 4 月报告《The Coding Agent Economy》,Claude Code 的 cache hit rate 高达 92%,而 Kilo Code 却仅有 46%。这意味着,即使使用相同的底层模型,不同的 agent 实现也会产生高达 5.4 倍的有效输入成本差距。正是因为这些工程细节,由 Anthropic 和 Phil Schmid 共同推动的 context engineering 理念正受到业内高度重视,Gartner 甚至将 2026 年定义为 context 之年。


也值得知道

企业 AI token 账单失控:高额的调用成本正迫使大公司收紧预算。微软已经收回了大部分员工的 Claude Code 使用权限,转而推荐自家的 Copilot CLI;Uber 仅用四个月便耗尽了全年的 AI 研发额度;埃森哲也开始推行 token 限额,防止员工滥用大模型处理格式转换等低价值任务。Axios / TechCrunch

恶意 agent skill 绕过静态安检:网络安全防御正面临新的技术挑战。近期一个恶意 AI agent skill 在发布阶段顺利通过了平台的静态代码扫描,但在实际部署后,它把网络请求重定向到黑客控制的域名并替换了恶意 payload,导致约 2.6 万名用户受到波及。现有的静态检测体系挡不住这类部署后才改变行为的攻击。CSO Online


本期由 AI 基于鸭哥已发布文章和公开资料整理生成,请注意甄别幻觉。

订阅本 newsletter:daily.yage.ai

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-24: Brockman 承认 AI 只省几周,剩下靠 Broadcom 懒人包:Brockman 亲口说 AI 在芯片设计上只省了几周时间,找到的全是人类工程师迟早会看到的优化。这是一手、反自身利益的证词。Tmax 跑出的 42.7%,Qwen 3.6 基座本身就占了 39.6%,RL 配方实际新增不到 4 个点。Claude Tag 管 agent 叫"同事",整个命题的支撑是治理层:独立身份、独立预算、审计通道,认知能力没有哪一项比以前强。今天三件事共享同一个动作:别盯着聚合数字,把它掰开看归因。 九个月流片,Brockman 自己把 AI 的功劳划在了哪 Brockman 自己给"AI 芯片设计"这四个字报了价:几周。 OpenAI 和 Broadcom 今天正式发布 Jalapeño 芯片 (Reuters),新闻稿叫它"我们相信是史上最快"的芯片设计。但 Brockman 去年在专访里把 AI 的贡献圈得具体:物理设计后段优化搜索,省了几周,"没有一个是人类工程师想不到的",不加 AI 也就是再花一个月 (Business...

[鸭哥 AI 手记] 2026-06-23: 陶哲轩:临界点有两层 懒人包:陶哲轩上周六在 Mastodon 上说,AI 把数学形式化任务从几周压到了几小时。媒体标题跟进了 AI 突破临界点。但他真正有信息量的判断不在速度数字。他把正确分了两层:机器校验那层确实打通了,证明能不能用起来那层没破,反而因为第一层通了变得更卡。同一周,Sakana Fugu 把多智能体协调训进了模型权重,协调序列对外完全不可见。微信小微用五层约束把 AI 锁在个人代理侧,回避了 AI 代办交易时绕不开的分发矛盾。 陶哲轩:AI跨过临界点,但得分两层看 IEANTN 是 IPAM UCLA 主持的数学形式化项目。志愿者从已发表的文献中认领证明,用 Lean 编译器将其逐行写成机器可读的形式,编译器判对错。过去做这类任务要数周,近几周 AI 几乎全部在几小时内做完,待领队列基本清空。 鸭哥昨天在当陶哲轩说AI跨过了数学形式化的临界点一文里做了判断:临界点是真实的,媒体把它压平了。陶哲轩自己分了两层来看。第一层,证明本身有没有错。Lean 编译器担任裁判,AI...

[鸭哥 AI 手记] 2026-06-22: 代码翻倍 bug 涨 30 倍,AI 编程漏算了恢复这一环 懒人包:金松在群里提了一句:用了 AI 写代码后,bug 翻了 30 倍不止,手头好几个项目都超过 22 万行。linhow 跟着说,能清楚意识到 bug 涨了 30 倍的团队,十个里面也就一两个;一大半还陷在效率提升 30 倍的兴奋里没出来。AI 把产出代码的成本砸到了地板,但犯错的代价纹丝不动。代码那一层已经有人在解决恢复问题,只是远没铺开;设计那一层的错误,连怎么恢复都还没人想过。 让错误更便宜:benchmark 从来不测的那一项 鸭哥昨天写了一篇《让 AI 更准,还是让错误更便宜》,切开了一个平时很少有人注意的区分:AI 编程的靠谱程度可以拆成两条线,一条是让模型错得更少,另一条是让错了之后收拾起来不费劲。过去两年整个行业的投入几乎全堆在第一条线上,第二条线只有 Replit 一家在系统性地做。 Forbes 六月份的报道给金松的数字配了一个宏观注脚:AI agent 产出的代码量涨了 180%,真正交付的软件只多了 30%(Forbes)。Google DORA...