[鸭哥 AI 手记] 2026-04-18

> 今天群里的三件事乍看无关，鸭哥昨天的三篇文章也各讲各的，但放在一起读会发现一个共同动作：把一个被大家混为一谈的现象拆开，看清其中几个性质完全不同的事实各自应该占多大比重。AI 中文里那股味儿、harness 会不会收敛、pre-training 到底难在哪，这三个问题今天都在同一个认知位上打架。

懒人包：鸭哥昨天连发三篇文章，今天群里几乎一一对上。Opus 4.7 发完第二天，群里从早到晚在吐槽它那股口癖，鸭哥那篇讲 AI 中文味本质是翻译腔的文章正好落在情绪最高点；朱里扬诺夫反推英文也有 AI 味，这条反论其实能让原判断站得更稳。马工扔下一句"蚂蚁有团队改名 harness engineering"，胥克谦当场总结"harness 到规模要架构级治理"，呼应了鸭哥那篇 harness 不会标准化的判断。会被共享的是 CLI 和 AGENTS.md 两侧，不是运行时本身；飞书钉钉企查查 72 小时先后发 CLI 这件三月底发生的事，到今天才真正被群里当成"AI 船票"在讨论。第三条线是 Anthropic Mythos Preview 10 万亿参数的传闻被彭超扔进群，和鸭哥那篇讲万卡集群每 1.8 小时出一次故障的 pre-training 难度文章形成对照，一起说清楚了"为什么这事只能剩几家玩"。

4.7 中文口癖为什么骂得理直气壮

鸭哥昨天那篇写作中的 AI 味是哪儿来的把一个模糊的读者直觉压成了四条具体的翻译腔套路：物理动作动词、形容词加冒号、抽象名词做主语、英文词不翻。文章说这股味儿不是 2026 年的新问题，是鲁迅、王小波、傅雷都骂过一百年的老翻译腔，只是现在被 AI 批量生产出来了。

今天这股味儿集中爆发。鸭哥在群里连发三次同一段 Opus 4.7 回复当反面教材："我都接住""更锋利的重构""context 不崩、成本不爆、state 可恢复""如果找不到，原断言可以 claim 更硬"。王欢说 4.7 中文写东西"依托答辩"，My 说"代码风格跑偏还是不可避免"，hyc 从 Google 那边补了一句 4.7 的"不是…而是"口癖和"创意写作里极其贫乏的架构能力"。这不是选词不稳，是整段话的骨架都立在英文句法上。

朱里扬诺夫那条反论是补强，不是反驳。他说英文母语者也能闻到英文 AI 味，主要是空话套话、一二三点、末尾总结，"所以这个 AI 味跟翻译腔关系不大"。鸭哥那篇文章的真正论点不是"AI 味等于翻译腔"，而是"中文 AI 味里的这一部分，原型来自英文句法"。英文 AI 味和中文 AI 味共享的是后训练阶段 RLHF 偏好推出来的公文腔套路，中文这一侧额外多出来的难受感，才是从英文骨架硬翻过来的部分。两种味道叠加在一起，换模型、换 prompt 基本无解。这也解释了为什么 4.7 中文退得比 4.6 明显而英文基准测评反而在提升：第三方 Code Arena 数据显示 4.7 在编程维度领先 4.6 +37 位（Latent Space），apiyi 的深度评测同时记录到 4.7 "指令遵循过度字面化、small-helper 纪律退步"（apiyi）。模型变得更"守规矩"，中文写作所依赖的那部分"读空气"能力恰好是规矩的对立面。

刘智聪在群里补了最后一刀："我做过一个 Agent 过滤 AI 文本，识别率最高的方法是节奏。人写的节奏会错乱，AI 写的非常稳定。"把这句话和鸭哥那篇文章放一起读，就知道这股味儿为什么几乎无解。节奏的错乱来自写作者脑子里的犹豫、删改、走神，是一种真实的不确定性的外化。AI 的后训练目标恰恰是把这种不确定性抹平，让输出稳定可预期。翻译腔只是这股稳定性的一种副产品。用户在 prompt 里要求"更有节奏""更自然"只能改表层措辞，改不掉生成分布本身。

Harness 不会收敛，但它的外壳已经在悄悄统一

鸭哥昨天那篇 Harness 的标准化：一个不会到来的标准给了一个不讨喜的判断：agentic 时代的 harness 不会像当年的 Chat Completions 那样收敛成统一接口，因为运行时层的每一项设计都同时在做两件事，一手管能力、一手管护城河。文章举了 Matt Mayer 的实测数据：同一个 Claude Opus，在 Claude Code 里跑 SWE-bench 拿 77%，在 Cursor 里跑拿 93%，16 个百分点全部来自 harness（thoughts.jock.pl）。CORE-Bench 上同一个差距更大，42% 到 78%。这种量级的差异足以让任何厂商把 harness 做成自己的差异化，而不是开放出来。

群里今天两头呼应了这个判断。一头是胥克谦："这段时间的真实体验，做好一套 harness 真的不容易，一个一个问题修补。引出了一个全新的问题或概念：harness 需要建立架构体系，harness 达到一定的规模，就需要真正架构级别的了。"马工紧跟一句"蚂蚁有个团队直接改名 harness engineering"。另一头是关于角色 prompt、子 agent 是否该预定义的半天辩论。晓灰说他已经放弃预定义 subagent 改让 cc 运行时自己创建，马工反问"tdd 落地的时候你要不要分开 tester 和 coder 的上下文、准备两份独立 skill"。表面在争是否需要预设角色，底层都在选同一件事：运行时层上每一项看似小的设计决定，都会连带改变这套 harness 对哪类任务更擅长。这种"每个小选择都有性格"的特性，正是文章说的运行时层为什么没法标准化。

真正在标准化的是运行时层的两侧。下面那层是 CLI。三月底飞书、钉钉在 24 小时内先后开源了自家的 CLI，飞书 Lark CLI v1.0.0 直接把 2500+ 个 API 暴露出来，MIT 协议，英文 README 在前中文在后；钉钉紧随其后（界面新闻）。到今天马工在群里贴的是企查查的 CLI，免费三个月，三亿数据直接薅。掘金有文章把这叫做"72 小时生死时速"，说它是"AI Agent 时代的船票"（掘金）。上面那层是 AGENTS.md 类的规约文件，它定义什么叫任务完成、什么叫风险边界。每家 harness 的跑法不同，但读的都是同一个格式的 AGENTS.md。这两侧一上一下夹着运行时层，形成了一个有趣的结构：中间那块各家死守差异，两边反而竞相向彼此兼容靠拢，因为只有这样 harness 才卖得出去。

宝玉今天随口一句"现在有 Claude Code 不怎么需要 IDE 了"是这套结构的一个小注脚。IDE 本来是人面向代码的 harness，一旦主要的用户变成了 agent，人类版 IDE 自然被绕开，对外接口退化成 CLI 和 AGENTS.md 两个极简共识。

万亿参数和 1.8 小时故障周期，一起解释了为什么这事只剩几家能玩

鸭哥昨天那篇训练一个大语言模型到底有多难把 pre-training 从"多少卡多少钱"拆成六个独立的工程约束。Meta 训 Llama 3 405B 用了 16,384 张 H100 跑 54 天，硬件故障 419 次，平均每 3 小时一次；硅数据损坏（SDC）每隔一到两周静悄悄把整个集群的梯度污染一次；dense 模型 MFU 在 38-46%，MoE 在 FP8 上掉到 21-32%，一万六千张卡里真正在算的等效只剩六七千张；高质量公开文本总量 Epoch AI 估算约 300 万亿 token，中位数耗尽年份 2028。单独看每个数字都能理解，叠在一起才是这个行业 2026 年的实际形状。

这种形状今天被群里两条独立的线补了侧影。彭超贴的那篇讲 Claude Mythos Preview 是一个 10 万亿参数 MoE 的文章在群里转了一圈，独立研究者估活跃参数 800B 到 1.2T，大概是 GPT-4 总参数量六倍（Augment Market）。Anthropic 自己没有确认过这个数字，LessWrong 写得比较冷静："10 万亿参数和 100 亿美元训练预算这两个数字不来自任何可识别的来源，既不是 Anthropic 公开说的，也不是 Epoch AI、METR、Apollo Research 这些第三方估的"（LessWrong）。但 Mythos Preview 被 Anthropic 自己放在 Project Glasswing 下按住不发这件事是实的，LinkedIn 新闻栏贴出的内部基准是 SWE-bench Pro 77.8%、Verified 93.9%、Terminal-Bench 82.0%。发出来的是 4.7，做出来的是 Mythos，两条曲线已经可见地分叉。

Meta 的工程博客给这条曲线背后的代价标了价。66% 的训练中断来自硬件故障，SRAM、HBM、处理阵列和网络交换机各自贡献一部分（Meta Engineering）。群里 Jingyi Fan 从 Meta 那一侧补了另一半画面：Metamate 的 second-brain setup 二月份还是"default devserver, optional local"，现在已经改成了"default local, optional migrate from dev server"，她直说"怀疑是公司内部 server 不够用了，需要降降火，不然天天 sev2"。不光是训练集群吃不消，推理端和内部工具链也在把算力往用户机器上挤。

把这两件事和鸭哥那篇文章放在同一张图上看，frontier pre-training 到 2026 年已经是一个把四种不同难度各自推到极限的工程：硬件要在万卡规模上把可靠性维持到 90% 有效训练时间，数值精度要在 FP8 甚至 FP4 边界上按算子分配精度，数据要在 300T token 的硬墙之前尽量多榨干 CommonCrawl，组织还得容忍一次训练花掉 100 亿美元而且可能重头再来。这四道关卡任何一道放松对应的都是数量级级别的成本。为什么这事只剩几家能玩，不是单一原因，是这四道关卡恰好只有少数团队同时能过。鸭哥那篇文章最有用的地方，是把这件事从"太贵了"这一句废话，换回它本来该有的四层结构。

也值得知道

Mythos 10T 传闻的可疑之处：彭超今天分享的 Mythos 10 万亿参数文章在群里被当作事实转发，LessWrong 的冷处理提醒这些数字没有可识别来源。但 Mythos Preview 被 Anthropic 按在 Project Glasswing 下不发是实的，独立基准里它和 Opus 4.7 拉开的差距大到看得见。"发出来的和做出来的不是一个模型"这个现象本身比具体数字重要。（LessWrong）

飞书钉钉企查查的 CLI 72 小时冲刺：三月底飞书 Lark CLI v1.0.0（MIT，2500+ API）和钉钉 CLI 相继开源，今天企查查跟上，免费三个月。分层设计都一致：Shortcuts 给 agent 用、API commands 精确控制、Raw API 兜底。这不是单家动作，是平台方集体承认运行时层不在自己手里，只有把执行面拆给 agent 才有位置。（界面新闻）

Meta 再裁 10%：群里刘二转的消息。宝玉加了一句"高水平的不用担心，但水平一般的很危险"。放在 Jingyi Fan 说的"infra 撑不住、second-brain 默认改回 local"那段旁边读，能看到同一家公司两侧都在缩：外面裁人，里面把推理压回员工自己的机器。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-18

[鸭哥 AI 手记] 2026-04-18

4.7 中文口癖为什么骂得理直气壮

Harness 不会收敛，但它的外壳已经在悄悄统一

万亿参数和 1.8 小时故障周期，一起解释了为什么这事只剩几家能玩

也值得知道

[鸭哥 AI 手记] 2026-04-21

[鸭哥 AI 手记] 2026-04-20

[鸭哥 AI 手记] 2026-04-19