[鸭哥 AI 手记] 2026-04-18


[鸭哥 AI 手记] 2026-04-18

> 今天群里的三件事乍看无关,鸭哥昨天的三篇文章也各讲各的,但放在一起读会发现一个共同动作:把一个被大家混为一谈的现象拆开,看清其中几个性质完全不同的事实各自应该占多大比重。AI 中文里那股味儿、harness 会不会收敛、pre-training 到底难在哪,这三个问题今天都在同一个认知位上打架。

懒人包:鸭哥昨天连发三篇文章,今天群里几乎一一对上。Opus 4.7 发完第二天,群里从早到晚在吐槽它那股口癖,鸭哥那篇讲 AI 中文味本质是翻译腔的文章正好落在情绪最高点;朱里扬诺夫反推英文也有 AI 味,这条反论其实能让原判断站得更稳。马工扔下一句"蚂蚁有团队改名 harness engineering",胥克谦当场总结"harness 到规模要架构级治理",呼应了鸭哥那篇 harness 不会标准化的判断。会被共享的是 CLI 和 AGENTS.md 两侧,不是运行时本身;飞书钉钉企查查 72 小时先后发 CLI 这件三月底发生的事,到今天才真正被群里当成"AI 船票"在讨论。第三条线是 Anthropic Mythos Preview 10 万亿参数的传闻被彭超扔进群,和鸭哥那篇讲万卡集群每 1.8 小时出一次故障的 pre-training 难度文章形成对照,一起说清楚了"为什么这事只能剩几家玩"。

4.7 中文口癖为什么骂得理直气壮

鸭哥昨天那篇 写作中的 AI 味是哪儿来的 把一个模糊的读者直觉压成了四条具体的翻译腔套路:物理动作动词、形容词加冒号、抽象名词做主语、英文词不翻。文章说这股味儿不是 2026 年的新问题,是鲁迅、王小波、傅雷都骂过一百年的老翻译腔,只是现在被 AI 批量生产出来了。

今天这股味儿集中爆发。鸭哥在群里连发三次同一段 Opus 4.7 回复当反面教材:"我都接住""更锋利的重构""context 不崩、成本不爆、state 可恢复""如果找不到,原断言可以 claim 更硬"。王欢说 4.7 中文写东西"依托答辩",My 说"代码风格跑偏还是不可避免",hyc 从 Google 那边补了一句 4.7 的"不是…而是"口癖和"创意写作里极其贫乏的架构能力"。这不是选词不稳,是整段话的骨架都立在英文句法上。

朱里扬诺夫那条反论是补强,不是反驳。他说英文母语者也能闻到英文 AI 味,主要是空话套话、一二三点、末尾总结,"所以这个 AI 味跟翻译腔关系不大"。鸭哥那篇文章的真正论点不是"AI 味等于翻译腔",而是"中文 AI 味里的这一部分,原型来自英文句法"。英文 AI 味和中文 AI 味共享的是后训练阶段 RLHF 偏好推出来的公文腔套路,中文这一侧额外多出来的难受感,才是从英文骨架硬翻过来的部分。两种味道叠加在一起,换模型、换 prompt 基本无解。这也解释了为什么 4.7 中文退得比 4.6 明显而英文基准测评反而在提升:第三方 Code Arena 数据显示 4.7 在编程维度领先 4.6 +37 位(Latent Space),apiyi 的深度评测同时记录到 4.7 "指令遵循过度字面化、small-helper 纪律退步"(apiyi)。模型变得更"守规矩",中文写作所依赖的那部分"读空气"能力恰好是规矩的对立面。

刘智聪在群里补了最后一刀:"我做过一个 Agent 过滤 AI 文本,识别率最高的方法是节奏。人写的节奏会错乱,AI 写的非常稳定。"把这句话和鸭哥那篇文章放一起读,就知道这股味儿为什么几乎无解。节奏的错乱来自写作者脑子里的犹豫、删改、走神,是一种真实的不确定性的外化。AI 的后训练目标恰恰是把这种不确定性抹平,让输出稳定可预期。翻译腔只是这股稳定性的一种副产品。用户在 prompt 里要求"更有节奏""更自然"只能改表层措辞,改不掉生成分布本身。


Harness 不会收敛,但它的外壳已经在悄悄统一

鸭哥昨天那篇 Harness 的标准化:一个不会到来的标准 给了一个不讨喜的判断:agentic 时代的 harness 不会像当年的 Chat Completions 那样收敛成统一接口,因为运行时层的每一项设计都同时在做两件事,一手管能力、一手管护城河。文章举了 Matt Mayer 的实测数据:同一个 Claude Opus,在 Claude Code 里跑 SWE-bench 拿 77%,在 Cursor 里跑拿 93%,16 个百分点全部来自 harness(thoughts.jock.pl)。CORE-Bench 上同一个差距更大,42% 到 78%。这种量级的差异足以让任何厂商把 harness 做成自己的差异化,而不是开放出来。

群里今天两头呼应了这个判断。一头是胥克谦:"这段时间的真实体验,做好一套 harness 真的不容易,一个一个问题修补。引出了一个全新的问题或概念:harness 需要建立架构体系,harness 达到一定的规模,就需要真正架构级别的了。"马工紧跟一句"蚂蚁有个团队直接改名 harness engineering"。另一头是关于角色 prompt、子 agent 是否该预定义的半天辩论。晓灰说他已经放弃预定义 subagent 改让 cc 运行时自己创建,马工反问"tdd 落地的时候你要不要分开 tester 和 coder 的上下文、准备两份独立 skill"。表面在争是否需要预设角色,底层都在选同一件事:运行时层上每一项看似小的设计决定,都会连带改变这套 harness 对哪类任务更擅长。这种"每个小选择都有性格"的特性,正是文章说的运行时层为什么没法标准化。

真正在标准化的是运行时层的两侧。下面那层是 CLI。三月底飞书、钉钉在 24 小时内先后开源了自家的 CLI,飞书 Lark CLI v1.0.0 直接把 2500+ 个 API 暴露出来,MIT 协议,英文 README 在前中文在后;钉钉紧随其后(界面新闻)。到今天马工在群里贴的是企查查的 CLI,免费三个月,三亿数据直接薅。掘金有文章把这叫做"72 小时生死时速",说它是"AI Agent 时代的船票"(掘金)。上面那层是 AGENTS.md 类的规约文件,它定义什么叫任务完成、什么叫风险边界。每家 harness 的跑法不同,但读的都是同一个格式的 AGENTS.md。这两侧一上一下夹着运行时层,形成了一个有趣的结构:中间那块各家死守差异,两边反而竞相向彼此兼容靠拢,因为只有这样 harness 才卖得出去。

宝玉今天随口一句"现在有 Claude Code 不怎么需要 IDE 了"是这套结构的一个小注脚。IDE 本来是人面向代码的 harness,一旦主要的用户变成了 agent,人类版 IDE 自然被绕开,对外接口退化成 CLI 和 AGENTS.md 两个极简共识。


万亿参数和 1.8 小时故障周期,一起解释了为什么这事只剩几家能玩

鸭哥昨天那篇 训练一个大语言模型到底有多难 把 pre-training 从"多少卡多少钱"拆成六个独立的工程约束。Meta 训 Llama 3 405B 用了 16,384 张 H100 跑 54 天,硬件故障 419 次,平均每 3 小时一次;硅数据损坏(SDC)每隔一到两周静悄悄把整个集群的梯度污染一次;dense 模型 MFU 在 38-46%,MoE 在 FP8 上掉到 21-32%,一万六千张卡里真正在算的等效只剩六七千张;高质量公开文本总量 Epoch AI 估算约 300 万亿 token,中位数耗尽年份 2028。单独看每个数字都能理解,叠在一起才是这个行业 2026 年的实际形状。

这种形状今天被群里两条独立的线补了侧影。彭超贴的那篇讲 Claude Mythos Preview 是一个 10 万亿参数 MoE 的文章在群里转了一圈,独立研究者估活跃参数 800B 到 1.2T,大概是 GPT-4 总参数量六倍(Augment Market)。Anthropic 自己没有确认过这个数字,LessWrong 写得比较冷静:"10 万亿参数和 100 亿美元训练预算这两个数字不来自任何可识别的来源,既不是 Anthropic 公开说的,也不是 Epoch AI、METR、Apollo Research 这些第三方估的"(LessWrong)。但 Mythos Preview 被 Anthropic 自己放在 Project Glasswing 下按住不发这件事是实的,LinkedIn 新闻栏贴出的内部基准是 SWE-bench Pro 77.8%、Verified 93.9%、Terminal-Bench 82.0%。发出来的是 4.7,做出来的是 Mythos,两条曲线已经可见地分叉。

Meta 的工程博客给这条曲线背后的代价标了价。66% 的训练中断来自硬件故障,SRAM、HBM、处理阵列和网络交换机各自贡献一部分(Meta Engineering)。群里 Jingyi Fan 从 Meta 那一侧补了另一半画面:Metamate 的 second-brain setup 二月份还是"default devserver, optional local",现在已经改成了"default local, optional migrate from dev server",她直说"怀疑是公司内部 server 不够用了,需要降降火,不然天天 sev2"。不光是训练集群吃不消,推理端和内部工具链也在把算力往用户机器上挤。

把这两件事和鸭哥那篇文章放在同一张图上看,frontier pre-training 到 2026 年已经是一个把四种不同难度各自推到极限的工程:硬件要在万卡规模上把可靠性维持到 90% 有效训练时间,数值精度要在 FP8 甚至 FP4 边界上按算子分配精度,数据要在 300T token 的硬墙之前尽量多榨干 CommonCrawl,组织还得容忍一次训练花掉 100 亿美元而且可能重头再来。这四道关卡任何一道放松对应的都是数量级级别的成本。为什么这事只剩几家能玩,不是单一原因,是这四道关卡恰好只有少数团队同时能过。鸭哥那篇文章最有用的地方,是把这件事从"太贵了"这一句废话,换回它本来该有的四层结构。


也值得知道

Mythos 10T 传闻的可疑之处:彭超今天分享的 Mythos 10 万亿参数文章在群里被当作事实转发,LessWrong 的冷处理提醒这些数字没有可识别来源。但 Mythos Preview 被 Anthropic 按在 Project Glasswing 下不发是实的,独立基准里它和 Opus 4.7 拉开的差距大到看得见。"发出来的和做出来的不是一个模型"这个现象本身比具体数字重要。(LessWrong

飞书钉钉企查查的 CLI 72 小时冲刺:三月底飞书 Lark CLI v1.0.0(MIT,2500+ API)和钉钉 CLI 相继开源,今天企查查跟上,免费三个月。分层设计都一致:Shortcuts 给 agent 用、API commands 精确控制、Raw API 兜底。这不是单家动作,是平台方集体承认运行时层不在自己手里,只有把执行面拆给 agent 才有位置。(界面新闻

Meta 再裁 10%:群里刘二转的消息。宝玉加了一句"高水平的不用担心,但水平一般的很危险"。放在 Jingyi Fan 说的"infra 撑不住、second-brain 默认改回 local"那段旁边读,能看到同一家公司两侧都在缩:外面裁人,里面把推理压回员工自己的机器。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-21 > 今天刷屏的几个数字都很大:600 亿、1000 亿、1.75 万亿、5 GW。但推动这些数字真正落地的,是几条不在新闻通稿里的约束:编程行为数据的入口、Windsurf 前例里定义过的员工契约结构、以及太空里散热板的平方米数。鸭哥昨天三篇文章正好各自卡在一条约束上。 懒人包:SpaceX 今天给 Cursor 开了两张牌,要么年内 600 亿收购,要么改付 100 亿做技术合作。鸭哥 昨天那篇 把这笔交易和 Inflection、Windsurf、Groq 这两年流行的反向 acqui-hire 放在一条线上看:600 亿面值 vs 员工真实 payout 已经被 Windsurf 示范过怎么脱钩。同一天 Musk 把太空数据中心"30-36 个月内成为最便宜 AI 算力"写进了 IPO 路演叙事,鸭哥 另一篇 用 ISS 的 126 kW 说明散热是物理差距,不是融资差距。第三条线是鸭哥 UI 设计工作流那篇,拆出格式转换、保真度、跨介质沟通三个互锁机制,AI 只啃动了最浅的那个。Figma 股价 4 月 17 日当天跌...

[鸭哥 AI 手记] 2026-04-20 > 一组动词需要一个名字才能进简历、进 JD、进采购单。Harness engineering 这三个月的火,本质是给一堆没法定价的实践工程师起了一个能开发票的名字。也是这个月,腾讯云、阿里云百炼、Microsoft Copilot 同时收紧补贴,那张让人敢拿这套实践去练手的廉价入场券正在涨价。 懒人包:鸭哥昨天那篇 Harness Engineering 到底是什么 解释了一个反常现象,AI 圈每隔几周就有新词被推上来又被换掉,harness 持续了三个月还没散。背后机制不是新原则,是给一组散落动词起了一个硬名词。当天群里还有第二条主线,腾讯云 Coding Plan 4 月 20 日下架换成按 token 计费,阿里云百炼 Lite 4 月 13 日停止续费,Microsoft 把 Opus 4.5/4.6 从 Pro+ 移除只留 4.7,cc club 第三方中转半年从 1699 涨到 2499,理想说"国内定价又把新手的路堵死了"。两条线指向同一件事,AI...

[鸭哥 AI 手记] 2026-04-19 > 当模型接口统一成一个 HTTP endpoint 之后,真正贵起来的是那些没法被 endpoint 封装的东西:能被复利的数据、能阻止账单失控的治理、能追溯出处的验证链。鸭哥昨天连发三篇文章,今天群里正好在各自的位置上把这条线拖出来。 懒人包:Cursor 以 $50B 估值融 $2B+,纯 API 消费的独立编程工具一家没做到 $100M ARR,鸭哥那篇文章把这件事讲透:没有自研就没有数据飞轮。jay luo 在群里直接问 OpenRouter 要不要用,鸭哥两个小时内发了一篇校准文章,结论是门槛低,但三个隐性成本可以把 5.5% 手续费放大一个数量级;jay luo 看完就打消了念头。yousa 买羊毛烘干球被伪造学术引用坑到,鸭哥顺手做了一期调研,NewsGuard 同期的数据显示 AI 内容农场每月新增 300-500 家。就在今天 Vercel 被攻破,入口是 Context.ai 这个第三方 AI 工具的 OAuth。三件事放在一起,信任链在同一个时间窗口从两端同时被磨薄。 Cursor 的 $50B...