[鸭哥 AI 手记] 2026-06-25: 静默写入 640 TB，磁盘检查完全看不出

懒人包：OpenAI Codex 正在静默磨损你的 SSD，年化写入量达 640 TB，但系统工具无法察觉。德国铁路因一次计划内换件导致全国列车停运约两小时，暴露出备用系统缺乏真实测试的隐患。多轮 agent 的主要推理开销由 KV cache 命中率决定，prefill 阶段甚至占据了账单的 85% 到 95%。鸭哥昨天共发布了 3 篇文章。

磁盘检查看不出的 640 TB 物理写入

OpenAI Codex 静默往用户 SSD 年化写入 640 TB，已逼近消费级硬盘额定寿命

Codex CLI 的 SQLite 写入存在严重缺陷。由于开发者将 TRACE 级别的日志输出硬编码在代码中，直接绕过了 RUST_LOG 环境变量。这样做在短短 21 天内写入了 37 TB 数据，折合年化达 640 TB。相比之下，三星 990 PRO 与 WD SN850X 这类 1TB 固态硬盘的官方质保写入量也仅有 600 TBW。因为保修期按时间或写入量先到者为准计算，加上 MacBook 的固态硬盘直接焊接在主板上，一旦损坏只能整体更换主板。

在这里常规工具全都失效了。du 命令显示的文件体积变化微乎其微，Finder 也保持静默。这是因为日志数据直接流向物理写入层，而常规工具检测的是文件系统层，两者统计脱节，导致隐患持续了整整三个月。直到 Apache Flink PMC 成员 Rui Fan（GitHub @1996fanrui）于 6 月 14 日在 issue #28224 中公开了 SMART 异常监控，社区才关注到此案，随后该话题在 6 月 22 日登上 Hacker News 首页并引发 The Register 的后续报道。

发生这种故障的根源，是 Codex 在 tracing 库中设置了 with_default(Level::TRACE)，在代码层面直接全量捕获日志，完全忽略了外部环境变量。虽然开发团队在 rust-v0.142.0 版本中修复了该问题并削减了约 85% 的日志写入，但截至 6 月 23 日，仍有 6 个相关的 issue 未能解决，其中针对 Windows 桌面包的 issue #29556 依然 open。

换句话说，普通的硬盘空间监控手段在这里毫无用处。鸭哥在文章中列出了三条应急止损方案和检测指令。核心思路是定期检查固态硬盘的 SMART 计数器，而不是依赖常规的文件空间体积。

一次计划内换件，全德国的火车停了

一次计划内更换部件，停了全德国的火车

不仅个人设备会因为隐藏的物理漏洞受损，庞大的公共基础设施也面临相似的安全盲区。6 月 23 日深夜，德国覆盖 33,400 公里路网和 5,400 座车站的 GSM-R 通信系统全国瘫痪，全德列车被迫停运约两小时。德国铁路基础设施运营方 DB InfraGO 的负责人 Philipp Nagl 随后证实，事故由一次计划内的软硬件部件更换触发。GSM-R 是一套自 2000 年起在欧洲铁路广泛使用的专用 2G 通信网，主要作用是向列车推送移动授权。一旦这条无线链路中断，列车的安全保护机制就会自动介入并紧急刹车。

这样做暴露出典型的分布式系统反模式，也是鸭哥昨天分析的核心。虽然设计了主备双机，但由于两侧运行着完全相同的代码、配置与更换流程，纸面上的高可用在真实的单一风险面前形同虚设。这种共因失效并非首例，2024 年 7 月 CrowdStrike 推送 channel file 291 导致的大范围崩溃，以及 2022 年 5 月荷兰 ProRail 的 GSM-R 系统故障都是同类机制。更巧的是，德国与荷兰的这套 GSM-R 核心网络，都出自供应商 Nokia。

不过，频繁的系统脆弱性也直观地反映在运营数据上。德国铁路的长途准点率已从 2005 年的 85% 跌至 2025 年的 60.1%，到了 2026 年 2 月更是探底至 59.4%。相比之下，邻国瑞士 SBB 维持了约 94% 的准点率，且瑞士的晚点评判标准是 3 分钟，比德国采用的 6 分钟更为严苛。究其原因，系统缺乏弹性的故障隔离机制也是关键。英国铁路在主控失效时允许进入 75 英里时速的降级运行规程，而德铁系统在面对异常时却只有全开或全关两个选项。

Agent 推理成本的第一变量不是模型

KV cache 命中率：Agent 推理的第一成本杠杆

这种系统深层的隐性成本，在 AI 领域同样存在。大家往往只盯着模型 API 报价，却忽略了多轮 tool-calling agent 的计算开销。一个典型的 ReAct agent 执行 10 次工具调用，只产出 500 个 output token，却在后台吃掉 80 万个 input token。云服务提供商 Spheron 的生产数据显示，prefill 阶段的开销占到 agent 推理总费用的 85% 到 95%。斯坦福团队的统计里，重新发送上下文这一项单独占掉 62% 的成本。真正抬高账单的并不是 output token 的标价，而是每一轮交互中不断累积并重新输入的冗余上下文。

针对这些冗余，目前的工程栈正在从三个层面进行优化。第一是压缩层，CompressKV 论文的研究表明，通过在注意力机制上精简，哪怕仅保留 3% 的 KV cache，也能在 LongBench QA 测试中保留 97% 的性能；在 Needle-in-a-Haystack 检索测试中，0.7% 的缓存容量就足以维持 90% 的准确率。第二是路由层，vLLM、SGLang 与 GKE 等框架通过 cache-aware 路由将请求派发给已有缓存的节点。第三是 API 层，例如 Anthropic 推出的 prompt caching，其缓存读取费用仅为标准输入的 0.1 倍。

不过，服务商提供的缓存机制也有坑。2026 年 3 月初，Anthropic 静默地把 prompt caching 的默认 TTL 从 1 小时压缩至 5 分钟。这一改动导致大量 agent 用户的 token 消耗速度涨了约一个数量级，开发者必须主动在请求中声明 "ttl": 3600 才能把有效期设回原样。

关键是，这种细节差异对开发者的钱包影响极大。根据 Requesty 发布的 2026 年 4 月报告《The Coding Agent Economy》，Claude Code 的 cache hit rate 高达 92%，而 Kilo Code 却仅有 46%。这意味着，即使使用相同的底层模型，不同的 agent 实现也会产生高达 5.4 倍的有效输入成本差距。正是因为这些工程细节，由 Anthropic 和 Phil Schmid 共同推动的 context engineering 理念正受到业内高度重视，Gartner 甚至将 2026 年定义为 context 之年。

也值得知道

企业 AI token 账单失控：高额的调用成本正迫使大公司收紧预算。微软已经收回了大部分员工的 Claude Code 使用权限，转而推荐自家的 Copilot CLI；Uber 仅用四个月便耗尽了全年的 AI 研发额度；埃森哲也开始推行 token 限额，防止员工滥用大模型处理格式转换等低价值任务。Axios / TechCrunch

恶意 agent skill 绕过静态安检：网络安全防御正面临新的技术挑战。近期一个恶意 AI agent skill 在发布阶段顺利通过了平台的静态代码扫描，但在实际部署后，它把网络请求重定向到黑客控制的域名并替换了恶意 payload，导致约 2.6 万名用户受到波及。现有的静态检测体系挡不住这类部署后才改变行为的攻击。CSO Online

本期由 AI 基于鸭哥已发布文章和公开资料整理生成，请注意甄别幻觉。

订阅本 newsletter：daily.yage.ai

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-25: 静默写入 640 TB，磁盘检查完全看不出

[鸭哥 AI 手记] 2026-06-25: 静默写入 640 TB，磁盘检查完全看不出

磁盘检查看不出的 640 TB 物理写入

一次计划内换件，全德国的火车停了

Agent 推理成本的第一变量不是模型

也值得知道

[鸭哥 AI 手记] 2026-06-24: Brockman 承认 AI 只省几周，剩下靠 Broadcom

[鸭哥 AI 手记] 2026-06-23: 陶哲轩：临界点有两层

[鸭哥 AI 手记] 2026-06-22: 代码翻倍 bug 涨 30 倍，AI 编程漏算了恢复这一环