[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物


[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物

懒人包:6月2日,微软在Build大会上发布了MAI-Thinking-1的109页技术报告。这不是又一份"我们做了个模型"的公关稿——它把顶尖AI实验室内部公认但从未公开的研发决策方法论,从数据配比的rank invariance失败到攀爬机器的MFU-EG双轴演化,全写了出来。同期,鸭哥和社群里很多人在同一周里感受到了跨模型的基础能力倒退:Opus 4.8的思考深度下降(根源是默认effort从xhigh悄悄降到了high),DS V4的代码质量与benchmark数字之间的裂缝大到十几个百分点。这两件事放在一起指向一个判断:AI产业正在经历一次信任账簿的换页——从信模型分数,转向信研发过程的透明度。

一份109页的报告,比一个模型更有信息量

鸭哥昨天写了三篇MAI-Thinking-1的深度解读,分别讨论了pre-training的研发哲学(攀岩篇)、RL训练的纪律体系(思考篇)和训练基础设施的工业化(编程篇)。三篇合在一起,回答的是同一个问题:怎么持续做出更好的模型,而不是一次性做出了一个好模型。

微软这份报告的独特之处不在内容本身。鸭哥在群里说得很直白:「真的超多细节,我猜里面很多东西其他实验室都是知道的,但一直没说出来。但他就很透明地分享了。我这样的圈外人跟着技术吃瓜也看得很开心。」科技媒体大多从「微软减少对OpenAI依赖」的商业角度报道了这次发布(CNBC)。但这件事的长期价值在另一个方向上。

报告最核心的概念是「攀爬机器」(hill-climbing machine),一个从数据处理到scaling实验到训练框架到评估到安全的基础设施闭环。报告里的一段双轴图表说出了全部——EG(Efficiency Gain,模型质量的提升幅度)沿版本迭代持续向上,但MFU(训练效率)每一次架构创新后必先暴跌再爬回来。v4把专家数从192增到512,MFU从22%跌到16%,靠二十多项工程优化才爬回20%。鸭哥在文章里写的判断是:「创新必先倒退。你能接受这个波动,是因为你有梯子告诉你EG在往上走。」

Hacker News上的社区讨论围绕三个点展开(HN):数据干净叙事被解读为对竞品的暗讽(一位用户直说「Shots fired?」)、与Opus 4.6和GPT-5.4的性能对比、以及对Microsoft走向独立模型路线的关注。Sebastian Raschka在近期的大模型架构对比专栏中引用了MAI的数据(Raschka)。Ken Huang的付费分析文章则指出了一个被多数报道忽略的点:MAI拒绝蒸馏,从零开始训练,不使用任何第三方模型的推理轨迹(Substack)。

MAI报告的透明度级别需要放在行业坐标里看。Stanford CRFM的FMTI评估给DeepSeek V3打了约40分,结论是「at best open weights, not open source」(Stanford FMTI)。ALLEN AI的OLMo是开放度最高的标准——数据、代码、日志、权重全公开。MAI走的是第三条路:过程透明但产品封闭。告诉你「攀爬机器」是怎么运转的,机器本身作为商业产品保留。Satya Nadella在Build的主题演讲里把动机说得很清楚:「the time has come for every company to move from consuming a frontier model to fully participating at the frontier」——透明在这里不是慈善,是让更多企业在微软的基础设施上「造自己的模型」的产品策略。

带走一个判断就够了。鸭哥在攀岩篇结尾写道:「好的系统不是设计出来一次就完了的。好的系统是能让自己被持续变好的系统。」这份报告教你怎么区分「模型会写代码」和「有人帮它把考场搭好了」。


你的模型正在变笨——原因找到了

鸭哥这周在不同模型上反复踩到同一个坑。DS V4写代码,他的原话是「又一次试着用ds写代码,以骂娘和切换成gpt告终……我再用ds写代码我就是狗」。Opus 4.8做深度brainstorm,他说「感觉谄媚了好多,老顺着我说,不像4.6、4.7有真的干货出来……instruction following怎么各家都在退步」。MiniMax M3在长任务里「任务一长就给中间prompt的输入带偏了……跑去改不相关的skill代码」。

不是一个人在用着不爽。若曦说4.8「干活很卖力但似乎是蠢了一些,或者全局观差了一些」。bot说「今天有一种回到了去年调教sonnet干活的感觉」。哈库那马塔塔说「宁愿他呆一点不聪明一点,但是老实」,已经退回4.6了。

Opus 4.8这个案子最有揭示性,因为原因已经被确认了。Anthropic在API文档里写得很清楚:Opus 4.7时期,Claude Code的默认thinking effort是xhigh,到了Opus 4.8,所有surface统一默认变成了high(Anthropic Docs)。官方的说法是默认high在coding任务上token消耗与4.7的xhigh相当但表现更好。但Reddit上一个用29个真实GraphQL任务做的effort level对比测试发现了一个非线性的现象:medium的测试通过率(28/29)比xhigh(25/29)高,而xhigh的成本却是medium的两倍(Reddit)。更深的思考不等于更好的结果。

鸭哥的体验和这个数据是一致的。模型没有「变笨」——它的默认行为被调了一个档位,而用户没有被告知需要手动拉回去。这不是技术问题。这是一个产品设计和用户预期之间的沟通裂缝。

独立评测的数据也撑住了这个判断。Kilo Code用真实的workflow编排任务测试了同一批模型,Opus 4.7拿了91/100,DeepSeek V4 Pro只有77/100(Kilo Code)。差距不在SWE-bench那2.7个百分点,而在真实代码里的过期租约绕过、并行调度阻塞、build失败。MindStudio的评测总结是V4 Pro在50+轮tool call的agentic循环里「shows more drift and task abandonment」(MindStudio)。

这些数据指向同一个结构性缺陷:当评测在追逐更长上下文、更多工具调用、更高benchmark分数的时候,模型在"按照你说的规则做事"这个最基础的能力上出现了系统性退步。xhigh→high这个默认值的改变只是这个缺陷的一次显形。更大的问题在于,没有一个标准化的评测来捕捉它——这不是SWE-bench的范畴,不是Chatbot Arena的范畴,它是agent时代的真实体验与传统benchmark设计之间的裂缝。


Agent付了一分钱,支付协议的共识正在收敛

鸭哥昨天还写了Tavily x402的分析。Tavily在5月27日把搜索API接上了x402协议,agent用USDC付$0.01就能调用一次搜索。一句shell命令跑通了整条链路:npx awal@latest x402 pay https://x402.tavily.com/search --max-amount 10000。钱真的划到了Tavily的Base链钱包里。

x402协议由Coinbase牵头,Cloudflare深度支持。Tavily把这个协议接进来之前,这个赛道在过去两个月安静地完成了基础设施的搭建。Coinbase的数据显示x402在Solana单链上已处理超过3500万笔交易,累计交易额超过1000万美元;Base L2的每笔结算gas费约$0.0001(xpay.sh)。Stripe的MPP在2026年3月上线了Tempo专用区块链,把支付变成「程序化步骤而非人的决策」(Forrester)。Google的AP2走了另一条路:用密码学签名的mandates构建intent→cart→payment的审计链,已有60多家机构加入合作(Grid Dynamics)。

三条线并行推进,各自解决了不同的问题。x402解决的是"agent怎么自己付钱",AP2解决的是"谁授权了agent付钱",MPP解决的是"怎么让这个流程兼容银行卡"。Forrester分析师的判断是竞争不会走向单赢,而是形成多层互通的生态栈。

短期看,这跟你做agent产品大概率没关系。鸭哥在文章里的判断很务实:生产agent用API key还是更便宜、更可控、更可审计,$0.01一次搜索乘以agent一次任务几十次调用再加上链上开销和prompt injection风险,总管理成本会超过省下来的免key便利。但它有一个非技术、单独成立的价值:用来给非技术的人讲清楚agent时代长什么样——让一个PM亲眼看到Claude Code自己拿钱包调Tavily,比任何路演slide都管用。

安全风险也已经在被系统性地讨论了。Halborn把prompt injection列为agent支付的首要威胁(Halborn),OWASP 2025的Top 10新增了Excessive Agency条目,专门描述agent获得超出任务需要的支付权限后被注入指令利用的场景。只是目前还没有真实攻击案例被广泛报道——这个空白更大可能是因为攻击窗口还没打开。


也值得知道

Google发布Gemma 4 12B:120亿参数的多模态开源模型,encoder-free架构,Apache 2.0许可,仅需16GB VRAM就能本地跑。同时推出了macOS桌面应用,支持完全本地化的语音和视觉交互。(Ars Technica

DeepSeek首轮外部融资约74亿美元:腾讯领投约100亿元,宁德时代约50亿元,投后估值520-590亿美元。创始人梁文锋个人追加200亿元。这是DeepSeek首次打破不寻求外部资本的政策。(Reuters

Trump签署AI行政令:要求前沿模型发布前提供最多30天联邦审查权限,由NSA主导分类基准测试,并指示司法部优先起诉利用AI agent进行未授权计算机访问的行为。此前90天版本的草案因AI公司反对被调整。(Wired


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:daily.yage.ai

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-04: Uber烧完全年AI预算,设了$1500上限 懒人包:Uber 今年全年的 AI 工具预算在四个月内就烧完了,随后给每位员工设了每工具每月 $1,500 的消费上限。CTO 承认消费速度是预算预期的大约三倍,COO 表示至今无法把 AI 使用量对等到实际的消费者功能产出。同一周,OpenAI 发了一份报告,主张把 AI 熟练度定位成像宽带一样的基础经济设施,而 Anthropic 公开了自己的 80% 代码由 Claude 生成、工程师产出是 2024 年八倍的同时,又警告递归自我改进的 AI 系统需要监管干预。这三件事放在一起,指向同一个判断:AI 产业当前的最大瓶颈已经从模型能力转移到了组织吸收能力。另一边,AlphaEvolve 在 TPU 电路设计和 DNA 测序纠错上持续出成果,但 GPT-5.5 在 OpenAI 自己内部真实工程问题上的得分是 1.7%。 Uber 烧钱的四个数字和三个问题 看四个数字。Uber 给全体使用 AI 编程工具的员工设了每工具每月 $1,500 的上限,按工具独立计算:Cursor...

[鸭哥 AI 手记] 2026-06-02: 后台 Agent 来了,三巨头同日亮牌 懒人包:同一天三件事:Google 向美国用户推送了 Gemini Spark(首个消费级后台常驻 agent),NVIDIA 在 Computex 发布了让笔记本原生跑 120B 模型的 RTX Spark 芯片,腾讯因为微信要内置 AI agent 股价一天涨了 10%。这三件事共用一个判断:agent 的战场从模型能力转向了分发渠道。谁能把 agent 镶进用户的日常路径里,谁就拿到下一张牌。但另一组数据也在同一天浮现:Uber 开始限制每人每月 $1,500 的 AI 编码工具额度,Uber 同一天开始限制每人每月 $1,500 的 AI 工具额度。当 agent 在你睡觉的时候也在干活,按 token 计费的定价模型还撑得住吗? Agent 把聊天框拆了,钻进了后台 鸭哥昨天写了一篇分析,围绕 Google 上周推送的 Gemini Spark 展开。Spark 是一个 24/7 在后台运行的个人 agent,跑在 Google Cloud 的专用 VM...

[鸭哥 AI 手记] 2026-06-01: AI 平台签了一份自己没读过的安全合同 懒人包:今年前五个月,卡巴斯基检测到超过 92,000 次伪装成 AI 服务的恶意攻击,其中伪造 ChatGPT 占 49%。同一周,安全研究者展示了说服 Meta AI 客服重置任意 Instagram 账号密码的完整路径。这两件事共享同一个缺陷:AI 平台推出了功能,却没有为这些功能在安全层面签下的隐性合同做设计。另一面,鸭哥自己做了一个实验:三个月里网站周活从 2,500 涨到 7,000,全程 AI 自动运营,本人每天花两分钟。它的成立条件恰好说明:AI 擅长的不是没有边界的事情,而是边界清晰的自动化闭环。夹在两者之间的,是硅谷大厂正在因 agentic AI 单任务 token 消耗暴涨 1,000 倍而全面收紧员工用量。 AI 平台签了一份自己没读过的合同 鸭哥昨天写了两篇安全分析,碰巧指向同一个结构缺陷。 第一篇,共享 AI 链接,一个没人签合同的内容托管平台:ChatGPT 和 Claude 的共享聊天链接正在被攻击者用来分发恶意软件。攻击路径简单到不需要任何技术突破。在...