[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物

懒人包：6月2日，微软在Build大会上发布了MAI-Thinking-1的109页技术报告。这不是又一份"我们做了个模型"的公关稿——它把顶尖AI实验室内部公认但从未公开的研发决策方法论，从数据配比的rank invariance失败到攀爬机器的MFU-EG双轴演化，全写了出来。同期，鸭哥和社群里很多人在同一周里感受到了跨模型的基础能力倒退：Opus 4.8的思考深度下降（根源是默认effort从xhigh悄悄降到了high），DS V4的代码质量与benchmark数字之间的裂缝大到十几个百分点。这两件事放在一起指向一个判断：AI产业正在经历一次信任账簿的换页——从信模型分数，转向信研发过程的透明度。

一份109页的报告，比一个模型更有信息量

鸭哥昨天写了三篇MAI-Thinking-1的深度解读，分别讨论了pre-training的研发哲学（攀岩篇）、RL训练的纪律体系（思考篇）和训练基础设施的工业化（编程篇）。三篇合在一起，回答的是同一个问题：怎么持续做出更好的模型，而不是一次性做出了一个好模型。

微软这份报告的独特之处不在内容本身。鸭哥在群里说得很直白：「真的超多细节，我猜里面很多东西其他实验室都是知道的，但一直没说出来。但他就很透明地分享了。我这样的圈外人跟着技术吃瓜也看得很开心。」科技媒体大多从「微软减少对OpenAI依赖」的商业角度报道了这次发布（CNBC）。但这件事的长期价值在另一个方向上。

报告最核心的概念是「攀爬机器」（hill-climbing machine），一个从数据处理到scaling实验到训练框架到评估到安全的基础设施闭环。报告里的一段双轴图表说出了全部——EG（Efficiency Gain，模型质量的提升幅度）沿版本迭代持续向上，但MFU（训练效率）每一次架构创新后必先暴跌再爬回来。v4把专家数从192增到512，MFU从22%跌到16%，靠二十多项工程优化才爬回20%。鸭哥在文章里写的判断是：「创新必先倒退。你能接受这个波动，是因为你有梯子告诉你EG在往上走。」

Hacker News上的社区讨论围绕三个点展开（HN）：数据干净叙事被解读为对竞品的暗讽（一位用户直说「Shots fired?」）、与Opus 4.6和GPT-5.4的性能对比、以及对Microsoft走向独立模型路线的关注。Sebastian Raschka在近期的大模型架构对比专栏中引用了MAI的数据（Raschka）。Ken Huang的付费分析文章则指出了一个被多数报道忽略的点：MAI拒绝蒸馏，从零开始训练，不使用任何第三方模型的推理轨迹（Substack）。

MAI报告的透明度级别需要放在行业坐标里看。Stanford CRFM的FMTI评估给DeepSeek V3打了约40分，结论是「at best open weights, not open source」（Stanford FMTI）。ALLEN AI的OLMo是开放度最高的标准——数据、代码、日志、权重全公开。MAI走的是第三条路：过程透明但产品封闭。告诉你「攀爬机器」是怎么运转的，机器本身作为商业产品保留。Satya Nadella在Build的主题演讲里把动机说得很清楚：「the time has come for every company to move from consuming a frontier model to fully participating at the frontier」——透明在这里不是慈善，是让更多企业在微软的基础设施上「造自己的模型」的产品策略。

带走一个判断就够了。鸭哥在攀岩篇结尾写道：「好的系统不是设计出来一次就完了的。好的系统是能让自己被持续变好的系统。」这份报告教你怎么区分「模型会写代码」和「有人帮它把考场搭好了」。

你的模型正在变笨——原因找到了

鸭哥这周在不同模型上反复踩到同一个坑。DS V4写代码，他的原话是「又一次试着用ds写代码，以骂娘和切换成gpt告终……我再用ds写代码我就是狗」。Opus 4.8做深度brainstorm，他说「感觉谄媚了好多，老顺着我说，不像4.6、4.7有真的干货出来……instruction following怎么各家都在退步」。MiniMax M3在长任务里「任务一长就给中间prompt的输入带偏了……跑去改不相关的skill代码」。

不是一个人在用着不爽。若曦说4.8「干活很卖力但似乎是蠢了一些，或者全局观差了一些」。bot说「今天有一种回到了去年调教sonnet干活的感觉」。哈库那马塔塔说「宁愿他呆一点不聪明一点，但是老实」，已经退回4.6了。

Opus 4.8这个案子最有揭示性，因为原因已经被确认了。Anthropic在API文档里写得很清楚：Opus 4.7时期，Claude Code的默认thinking effort是xhigh，到了Opus 4.8，所有surface统一默认变成了high（Anthropic Docs）。官方的说法是默认high在coding任务上token消耗与4.7的xhigh相当但表现更好。但Reddit上一个用29个真实GraphQL任务做的effort level对比测试发现了一个非线性的现象：medium的测试通过率（28/29）比xhigh（25/29）高，而xhigh的成本却是medium的两倍（Reddit）。更深的思考不等于更好的结果。

鸭哥的体验和这个数据是一致的。模型没有「变笨」——它的默认行为被调了一个档位，而用户没有被告知需要手动拉回去。这不是技术问题。这是一个产品设计和用户预期之间的沟通裂缝。

独立评测的数据也撑住了这个判断。Kilo Code用真实的workflow编排任务测试了同一批模型，Opus 4.7拿了91/100，DeepSeek V4 Pro只有77/100（Kilo Code）。差距不在SWE-bench那2.7个百分点，而在真实代码里的过期租约绕过、并行调度阻塞、build失败。MindStudio的评测总结是V4 Pro在50+轮tool call的agentic循环里「shows more drift and task abandonment」（MindStudio）。

这些数据指向同一个结构性缺陷：当评测在追逐更长上下文、更多工具调用、更高benchmark分数的时候，模型在"按照你说的规则做事"这个最基础的能力上出现了系统性退步。xhigh→high这个默认值的改变只是这个缺陷的一次显形。更大的问题在于，没有一个标准化的评测来捕捉它——这不是SWE-bench的范畴，不是Chatbot Arena的范畴，它是agent时代的真实体验与传统benchmark设计之间的裂缝。

Agent付了一分钱，支付协议的共识正在收敛

鸭哥昨天还写了Tavily x402的分析。Tavily在5月27日把搜索API接上了x402协议，agent用USDC付$0.01就能调用一次搜索。一句shell命令跑通了整条链路：npx awal@latest x402 pay https://x402.tavily.com/search --max-amount 10000。钱真的划到了Tavily的Base链钱包里。

x402协议由Coinbase牵头，Cloudflare深度支持。Tavily把这个协议接进来之前，这个赛道在过去两个月安静地完成了基础设施的搭建。Coinbase的数据显示x402在Solana单链上已处理超过3500万笔交易，累计交易额超过1000万美元；Base L2的每笔结算gas费约$0.0001（xpay.sh）。Stripe的MPP在2026年3月上线了Tempo专用区块链，把支付变成「程序化步骤而非人的决策」（Forrester）。Google的AP2走了另一条路：用密码学签名的mandates构建intent→cart→payment的审计链，已有60多家机构加入合作（Grid Dynamics）。

三条线并行推进，各自解决了不同的问题。x402解决的是"agent怎么自己付钱"，AP2解决的是"谁授权了agent付钱"，MPP解决的是"怎么让这个流程兼容银行卡"。Forrester分析师的判断是竞争不会走向单赢，而是形成多层互通的生态栈。

短期看，这跟你做agent产品大概率没关系。鸭哥在文章里的判断很务实：生产agent用API key还是更便宜、更可控、更可审计，$0.01一次搜索乘以agent一次任务几十次调用再加上链上开销和prompt injection风险，总管理成本会超过省下来的免key便利。但它有一个非技术、单独成立的价值：用来给非技术的人讲清楚agent时代长什么样——让一个PM亲眼看到Claude Code自己拿钱包调Tavily，比任何路演slide都管用。

安全风险也已经在被系统性地讨论了。Halborn把prompt injection列为agent支付的首要威胁（Halborn），OWASP 2025的Top 10新增了Excessive Agency条目，专门描述agent获得超出任务需要的支付权限后被注入指令利用的场景。只是目前还没有真实攻击案例被广泛报道——这个空白更大可能是因为攻击窗口还没打开。

也值得知道

Google发布Gemma 4 12B：120亿参数的多模态开源模型，encoder-free架构，Apache 2.0许可，仅需16GB VRAM就能本地跑。同时推出了macOS桌面应用，支持完全本地化的语音和视觉交互。（Ars Technica）

DeepSeek首轮外部融资约74亿美元：腾讯领投约100亿元，宁德时代约50亿元，投后估值520-590亿美元。创始人梁文锋个人追加200亿元。这是DeepSeek首次打破不寻求外部资本的政策。（Reuters）

Trump签署AI行政令：要求前沿模型发布前提供最多30天联邦审查权限，由NSA主导分类基准测试，并指示司法部优先起诉利用AI agent进行未授权计算机访问的行为。此前90天版本的草案因AI公司反对被调整。（Wired）

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：daily.yage.ai

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物

[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物

一份109页的报告，比一个模型更有信息量

你的模型正在变笨——原因找到了

Agent付了一分钱，支付协议的共识正在收敛

也值得知道

[鸭哥 AI 手记] 2026-06-04: Uber烧完全年AI预算，设了$1500上限

[鸭哥 AI 手记] 2026-06-02: 后台 Agent 来了，三巨头同日亮牌

[鸭哥 AI 手记] 2026-06-01: AI 平台签了一份自己没读过的安全合同