[鸭哥 AI 手记] 2026-05-09: DeepSeek 没说的、HTML 没证的、TDD 没测的

> 鸭哥今天在群里写下一句很冷的观察：DeepSeek 国运级模型那篇文章传得满天飞，但他在全网一直找不到一份 DeepSeek 自己关于 V4 用国产芯片训练的一手官方声明。同一天群里另两件事，是 Anthropic 工程师 Thariq 一句"HTML is the new markdown"在外面冲到 5M 阅读，群里却几乎一边倒说这是为了让你多烧 token 立的稻草人；还有鸭哥昨天那篇 TDD 文章发出来不到一天，圈内已经在讨论真正该测的根本不是 AI 写的代码路径，而是它输出之后的不变量。

懒人包：先看那条没找到的声明。鸭哥昨天看到彭超转的"中美 AI 正式分叉"这类文章后，自己去搜了一圈 DeepSeek 和华为的官方说法（南方都市报今天对彭超的采访同时登出，焦点是 Tokenmaxxing），结论是：Reuters 的措辞是 V4「adapted for Huawei chips」，MIT Technology Review 引清华刘知远进一步限定，DeepSeek 只在 V4 训练流程的「一部分」做了适配，国产芯片更多是跑推理。第二件事，Thariq 的推文把"agent 输出 HTML 优于 Markdown"包装成新福音，群里柯西、challen、公众平台安全助手的反应是稻草人加烧 token 加平台想把人留在自家 loop 里。第三件事，鸭哥昨天的 TDD 不是 AI 时代的答案今天在群里被 yousa 接住，他借 ChatGPT Pro 跑了一轮把核心提炼成「AI 时代测试最大的问题不是数量不足，而是测试放错了层级」，字节工程师顺手画出了纺锤型/倒金字塔的新形状。三件事看起来不在一个频道，连起来是同一个动作：群里今天在拒绝接受被压扁的结论，把它拆回成原始声明、原始成本、原始测什么。

全网找不到的那份 DeepSeek 一手声明

下午彭超在群里转了「再谈 DeepSeek：中美 AI 正式分叉」。鸭哥的回复没有顺势加注，是冷冷一句话：「我之前也试着去写过这个话题，但不知道是 AI 的能力问题还是怎么回事，我目前在全网一直没有没找到任何一篇一手的官方的声明。比如说 DeepSeek 说我们没有用 Nvidia 的芯片训练，或者 DeepSeek 说我们用昇腾 / 寒武纪完成了训练。」

这条观察在事实强度和叙事强度之间打了一个楔子。叙事侧今天非常热闹，南方都市报当天（5 月 9 日）刚把彭超本人（OneOneTalk 联合创始人兼 CTO）登成了 Tokenmaxxing 议题的受访者，引述黄仁勋"年薪 50 万美元的工程师没烧掉 25 万美元的 token 我会深感不安"，给出 Meta 30 天 60 万亿 token 折 90 亿美元的数字。南北舆论场同步把 DeepSeek 抬到"国运"和"分叉"的位置，鸭哥追问的是再往下一层的事实：训练阶段到底跑在哪种芯片上，DeepSeek 自己说过没有。

公开档案里的真实情况比叙事克制得多。Reuters 4 月 24 日发出 V4 那天用的标题是 DeepSeek-V4, the Chinese AI model adapted for Huawei chips，关键动词是「adapted for」，避开了「trained on」。MIT Technology Review 同日的长稿引清华刘知远，措辞是 DeepSeek「appears to have adapted only part of V4's training process」，国产芯片真正用于跑推理。再往源头走，China Academy 4 月底的报道直接写「For training... the picture remains murky. DeepSeek's technical report did not specify which GPUs V4 was trained on.」DeepSeek 自己唯一一次具体表态，是回应特朗普政府高官关于"走私 Blackwell"的指控，回应里说自己用的是 H800 加昇腾 910C 混合。这跟"完全国产训练"是两个完全不同的命题。

群里包博侃随后给了个钩子，把含糊的语气结构化了：「从我跟华为港研所的朋友的交流来看，一般对外公布的东西，时间差会有个半年到一年，包括跟豆包、DeepSeek 的合作。」紧跟一句「集成电路基金二期三期对最新一代产品的研发投入处理得非常低调」。彭超自己在群里也补了精确分层：「他训练还是 CUDA，推理与后训练可以兼容 CANN。」鸭哥唯一找到的相对硬一点的官方陈述，是华为 1 月前后宣布智谱 GLM-Image 是「首个基于自主创新算力底座全程训练的 SOTA 模型」，但他读完原文判断：「这个讲的也挺含糊的，看不出来到底是完全用国产芯片训练的。」

李泽阳贴近实际工程的一段话也保留下来：「最消耗的就是陪着他们 debug driver。」适配国产芯片真正花的代价在工程团队帮硬件厂跑场景把 driver 写明白，模型那一侧没有革命。鸭哥的态度今天很清楚：「我不是说用国产不好，而是说如果有 DeepSeek/华为官宣说 deepseek v4 是国产芯片训练出来的，我庆祝得会更踏实。」

群没接 Anthropic 工程师那份 HTML 福音

晚上 JEROME 把 Thariq 的 X 推文贴进群里。Thariq 是 Claude Code 团队的工程师，主张所有 agent 输出从 markdown 切到 HTML，一句"HTML is the new markdown"在外面冲到了 5M 阅读，Reddit 和 Medium 上一片"打破我三年默认"的标题。这个声量进群之后立刻碰了壁。

柯西第一反应是「让我觉得像个蛇油商人」，紧跟一句「他这个文章说得好像是大家都在犯傻，然后 a 发现了一个很了不起的解决方案，所以大家多烧点 token」。公众平台安全助手补了一刀「本来这就是两个并行不悖的东西，非要搞对立」。Oversea 拆得最直接：「markdown -> html 也不需要 token 啊。」群里反对的核心在成本结构，并非审美。一份 markdown 报告变成 HTML，要么交给 Claude 多生成一遍，token 消耗几倍上去；要么本地用 pandoc 之类工具一键转，不用大模型介入。后一条路径根本不需要把这件事抬成方法论。

群里也并非齐声反对，而是给了一个更精细的分层。jovezhong 写「从 html 转到 markdown 现在转回 html，洋洋洒洒十几页的 markdown 内容实在不想看，生成直观有交互的网页才机会 human in the loop」。课代表立正一句「markdown render 对非技术人是一个巨大的 blocker」是个真问题。包博侃最具体：他的 md 治理已经分成三段，给人读的 prose 走老鸭汤直接转 HTML，给 AI 读的 yaml contract，给 Python 读的 registry metadata，「各司其职且容易维护」。也就是说，HTML 真正的位置在给定下游消费者之后选格式。Thariq 立的稻草人，是把整条数据流压成 agent 给人看这一种场景，再用 HTML 在这种场景下的优势否决另一种 underlying use（agent 给 agent / 程序读）。鸭哥读完讨论后的结论很短：「比较的场景和对象不是很公平。」

把 5M 阅读的福音和群里的拆解放在一起看，今天的实际信号是：当 Anthropic 工程师替整个生态推一种新默认时，圈内的工程师默认警惕的是 token 账单，而非审美。同一时间 challen 写完了一篇用自己 skill 一条龙跑出来的随笔发到了自己网站；谷雨说「这俩月开始我自己的 agent 做的报告和文件都直接扔到 vercel 得个人网站上看了」。HTML 在群里早就在用，只是没人觉得这件事配得上被 Anthropic 立成纲领。

TDD 文章发出来还不到一天，圈内已经在画测试金字塔的新形状

鸭哥昨天发的为什么 TDD 反而不是 AI 时代的答案今天在群里被接住的方式，比文章本身还有意思。yousa 没有简单转发，他先把文章拿去跟 ChatGPT Pro 跑了一遍对话，然后逐句拆出关键词「specification / invariant / contract / boundary verification」，并且老实承认「虽然这四个词我都不懂是指什么意思 hhh」。这种边读边学、不装懂的姿态，是把方法论从作者送到读者手里最低成本的方式。

yousa 给出的最尖锐一句是：「AI 时代，测试最大的问题不是数量不足，而是测试放错了层级。」字节顺着这条线接了一手具体的工程师视角：「以前是金字塔测试，现在看文章的意思是更多往上层堆 contract，不变量的测试，底层变少，变成纺锤形，或者倒金字塔？」鸭哥本人补的也并非新论点，是把原文边界讲得更死：「确定性的代码测试没办法阻止不确定的 AI。」Rodriguez 给出落地建议：核心路径走 e2e，边缘场景才用 TDD。宋世康的总结最干：「TDD 感觉只能测冒烟和边界，核心还是靠各种 evals，rubric based 的测试。」

外面研究界最近半个月的论文流向跟群里的判断对得上。MarkTechPost 4 月 18 日推了一篇 Hypothesis 的 stateful / differential / metamorphic 教程；HackerNoon 4 月 16 日的 Property-Based Testing for AI-Written Code 直接把这套方法和 LLM 写出来的代码绑定。arxiv 上 FM-Agent 那篇干脆把 Hoare 风格的形式化推理放到大型系统验证里。再加上 Policy Invariance 这篇把不变量测试推到 LLM 安全裁判上。把这些拼起来看，鸭哥写的「把确定性从路径上撤到边界上」并非孤立的判断，是 4 月份开始在外部研究和工程实践里同步浮现的形状。

字节最后一段话留下来作压轴：「测试好不好跟设计好不好的确是很难分开的话题。」AI 时代的测试讨论，绕了一圈回来，落点在设计而非测试本身。这并不是 TDD 的反面，是把"什么算正确"这件事重新放回设计阶段：AI 时代每多一层不确定，就多一份重新画测试金字塔的需要。

也值得知道

白宫开始考虑 AI 模型上线前的联邦审查：5 月 4 日纽约时报报出特朗普政府正在研究类似 FDA 的预审机制，Fortune 5 月 6 日的稿子给出政策转向时间点。商务部下属的 CAISI 已经做完 40 多次 frontier 模型评估，国会今年 1 月给 NIST 多批了 5500 万美元的 AI research 预算外加 1000 万扩展 CAISI。WSJ 同期报道 Google、Microsoft、xAI 已同意分享早期模型。从 Anthropic 上月被禁用，到现在白宫想要 pre-release 审查，监管节奏从禁用某家切换到了统一闸口。

南方都市报采访彭超谈 Tokenmaxxing：5 月 9 日今天发出。几个具体数字记一下：迪士尼员工 9 个工作日累计调用 Claude 约 46 万次（平均 1.7 秒一次），彭超公司全职员工人均日烧 2 亿 token，按团队当前缓存场景折算 API 单人每日成本 160-360 美元，Meta 30 天全员消耗 60 万亿 token 按 Claude API 价折约 90 亿美元，黄仁勋说"年薪 50 万美元的工程师没在 AI 上烧掉 25 万美元的 token 我会深感不安"。

JPMorgan 内部 Copilot 把 Opus 4.7 定为 Opus 4.5/4.6 的 15 倍 prompt 价：群友刘楚欣的内部价格表晒出来，每 prompt 4 美分一刀切，大任务小任务一价。他自己的反应是"真的是服了谁要用 4.7 啊"。这个数字并非模型层面的合理定价，是大企业 AI 内部计价机制还在沿用 SaaS 旧逻辑：按调用次数收，不按 token 实际消耗。这跟今天南方都市报那条新闻是同一个问题的两面。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-09: DeepSeek 没说的、HTML 没证的、TDD 没测的

[鸭哥 AI 手记] 2026-05-09: DeepSeek 没说的、HTML 没证的、TDD 没测的

全网找不到的那份 DeepSeek 一手声明

群没接 Anthropic 工程师那份 HTML 福音

TDD 文章发出来还不到一天，圈内已经在画测试金字塔的新形状

也值得知道

[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘

[鸭哥 AI 手记] 2026-05-11: 同一天发明同一家公司，然后背道而驰

[鸭哥 AI 手记] 2026-05-10: Agentforce 800M、专利里的思考标注、agentOS 雏形