懒人包:Uber 今年全年的 AI 工具预算在四个月内就烧完了,随后给每位员工设了每工具每月 $1,500 的消费上限。CTO 承认消费速度是预算预期的大约三倍,COO 表示至今无法把 AI 使用量对等到实际的消费者功能产出。同一周,OpenAI 发了一份报告,主张把 AI 熟练度定位成像宽带一样的基础经济设施,而 Anthropic 公开了自己的 80% 代码由 Claude 生成、工程师产出是 2024 年八倍的同时,又警告递归自我改进的 AI 系统需要监管干预。这三件事放在一起,指向同一个判断:AI 产业当前的最大瓶颈已经从模型能力转移到了组织吸收能力。另一边,AlphaEvolve 在 TPU 电路设计和 DNA 测序纠错上持续出成果,但 GPT-5.5 在 OpenAI 自己内部真实工程问题上的得分是 1.7%。
看四个数字。Uber 给全体使用 AI 编程工具的员工设了每工具每月 $1,500 的上限,按工具独立计算:Cursor 的额度不影响 Claude Code 的额度(Bloomberg)。公司全年 AI 预算在四个月内耗尽。去年 Uber 还在用排行榜激励员工多用 AI。COO Andrew Macdonald 的原话是,至今难以把 AI 使用数据对等到“实际产出了更多有用的消费者功能”。
这三个数字背后是三个在行业层面有普遍性的问题。第一,预算烧得比预想快三倍,说明企业低估了 agentic 工具的 token 消耗量。第二,用排行榜推广使用量又突然设上限,说明推广时没有同时设计衡量产出的机制。第三,COO 公开承认产出不可见,这比预算超支本身更麻烦。它意味着 AI 工具的产品设计里缺少对组织成本归因的支持。
Uber 不是个案。GitHub Copilot 在 5 月底把计费模式改成按 token 计价,开发者群体在 TechCrunch 评论区的反馈概括起来是一句“What a joke”(TechCrunch)。McKinsey 的最新调查数据更直接:88% 的受访组织在 2025 年至少在一个业务功能中使用了 AI,但只有 7% 表示 AI 已完全部署和集成到整个组织(Chronus 分析)。从“用了”到“用上了”,中间差的不是工具能力,是组织把 AI 的输出接到自己业务衡量体系里的能力。
同一周,OpenAI 发布了一份题为《知识工作的下一个时代》的报告(PDF),把 Codex 定位成信息工作的“工厂重新设计”。报告的核心叙事框架借用了经济学家 Erik Brynjolfsson 的生产率悖论:通用技术从部署到产生可测量的生产率提升之间有漫长的滞后,因为组织需要围绕新技术重建工作流、管理结构和技能体系。报告里引了一个精准的案例。十九世纪八十年代,美国工厂把蒸汽机换成电动机后,厂房布局没变,所有机器仍然通过天轴和皮带连到中央动力源,生产率几十年来几乎没有提升。直到工厂围绕电动机重新设计了物理布局:每台机器独立供电、产线按流程顺序排列、按需启停。生产率直到这个阶段才开始跳升。电动机一直是那个电动机,变的是组织方式。
鸭哥昨天发布的文章把这段历史和当下的 AI 转型做了对照(OpenAI 最新报告:会用 AI 正在从竞争优势变成生存门槛)。他的核心判断是,报告真正在说的不是“模型又变强了”。Codex 周活超过五百万也好、知识工作者采用速度是开发者的三倍以上也好、50% 的用户每天并行跑多个任务也好,这些数字指向的是同一件事:AI 工具正在从专业人员的生产力工具变成完成工作的基础能力。报告的四条政策建议串成一条推理链:现代化公共部门工作流、把 AI 熟练度当基础设施、让最接近问题的人主导 AI 采用、按“要完成的工作”更新采购规则。鸭哥写道,公司“应当让直接做业务的人来自下而上主导 AI 变革,而不是从上向下推进”。
群里腾讯的内部政策调整正好提供了另一个角度的验证。彭超分享的财联社报道显示,腾讯已在内部宣布 AI token 投入提升几十倍,同时明确“看产出不看消耗,不搞 token 消耗量排名,不贩卖焦虑”(财联社)。这和 OpenAI 报告的方向一致:把讨论从“用了多少 token”转到“做成了什么事”。钛媒体的深度分析指出,腾讯 2025 年在混元和元宝上的投入约 180 亿元,预计 2026 年翻一番(钛媒体)。
把这三个信号放在一起看:Uber 在刹车、OpenAI 在踩油门、腾讯在换挡。方向不同,但背后是同一个判断:当前问题不是模型够不够好,是组织能不能吸收。电动工厂的类比在这里会产生一个反直觉的推论:如果 Uber 退回去只看消耗数字而不是重构组织方式,它的生产率也会在接下来的很长一段时间里是平的。
鸭哥昨天发布了第二篇深度分析,从根上拆解了 DeepMind 的 AlphaEvolve(从根上拆解 AlphaEvolve)。这篇文章的核心判断是:AlphaEvolve 不是 AGI,它真正的突破在于把两个各自有死穴的技术路线拼在了一起:拿掉遗传算法里最蠢的零件、也就是随机变异算子,换成 LLM,让它做有语义方向感的代码改动。LLM 负责提方案,进化框架负责做选择。
AlphaEvolve 的实际应用范围比中文媒体的 AGI 叙事宽得多。Google 内部用它优化了下一代 TPU 的硅级电路设计,Jeff Dean 证实部分反直觉的电路设计已被直接集成进芯片。Borg 数据中心的作业调度经过优化后恢复了全球计算资源的 0.7%。PacBio 用它改进了 DeepConsensus DNA 测序纠错模型,变异检测错误降低了 30%。Klarna 用它把最大的 transformer 模型训练速度翻了一倍。JetBrains 用它优化了 IntelliJ IDEA 的 B-tree 索引实现,在合成基准上取得了 15% 到 20% 的性能提升(JetBrains Blog)。
这些案例有一个共同特征。每个问题都有一个可以用自动化方式验证正确性的 evaluator。电路设计有仿真器评分,作业调度有资源利用率可测,测序纠错有 ground truth 比对,B-tree 有吞吐量 benchmark。AlphaEvolve 不需要知道最优解长什么样,只需要一个能打分的 evaluator。
但真实工作流里的大部分问题不是这样的。GPT-5.5 在 OpenAI 的内部基准 OPQA 上,面对 20 个真实内部工程瓶颈问题,包括性能退化诊断和训练指标异常定位,得分只有 1.7%(GPT-5.5 System Card 分析)。同一个模型在 Terminal-Bench 2.0 上的得分是 82.7%。两个数字之间差了将近两个数量级。
群里郝小贱分享了一组来自某个 CLI 长工作流 benchmark 的数据,其中最难层级的完全通过率只有约 2.6%。这组数据的具体 benchmark 名称目前无法在公开来源中交叉验证,但它描述的模式和 OPQA 的数据完全一致:从可控基准跳到真实任务时通过率跌落一个数量级。失败类型分布中,方法错误占 47%,理解错误占 31%,执行错误占 22%。作者的核心判断是瓶颈在模型的专业理解和领域知识,不是单纯的 harness 工程。
这就是 AlphaEvolve 碰都没碰的那个问题。AlphaEvolve 需要一个可以被自动化打分的工作,而现实世界里的工作大多数没有这个条件。定义“什么是好”本身往往就是最困难的那一步。什么时候你有端到端的自动化评估,什么时候 AI 能在那个领域做出 AlphaEvolve 级别的成果。在没有自动化评估的领域,一切又回到了人的判断。而人的判断,恰恰是组织吸收瓶颈最窄的那一段。
DeepSeek 首轮融资约 74 亿美元,估值 520 亿到 590 亿美元:参与方包括腾讯(约 14.6 亿美元)、宁德时代(约 7.3 亿美元)和国家 AI 基金。梁文锋个人承诺注资约 28.5 亿美元,向投资者表示优先突破性 AI 研究而非短期商业化(Reuters)。宁德时代的加入标志着中国 AI 基础设施正在形成从能源到模型的垂直整合。
Anthropic 一边申请 IPO 一边警告 AI 自我进化风险:6 月 4 日,Anthropic Institute 发布由 Marina Favaro 和 Jack Clark 撰写的博客,警告递归自我改进的 AI 系统需要多实验室联合核查和临时暂停机制。同一周,公司刚提交了约 9650 亿美元估值的机密 IPO 申请,年化收入 470 亿美元(Axios)。
前 OpenAI 研究员姚舜宇出任腾讯首席 AI 科学家:6 月 5 日报道,公开表示要在中国“建立一个长期 AGI 组织”,标志着中国 AI 人才从应用优先转向 AGI 叙事(CNBC)。
苹果 WWDC 下周开幕,Siri 预计接入 Gemini:iOS 系统级 AI 重大改造,可能推出独立 Siri App 和 AI Agent App Store(TechCrunch)。
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:daily.yage.ai
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物 懒人包:6月2日,微软在Build大会上发布了MAI-Thinking-1的109页技术报告。这不是又一份"我们做了个模型"的公关稿——它把顶尖AI实验室内部公认但从未公开的研发决策方法论,从数据配比的rank invariance失败到攀爬机器的MFU-EG双轴演化,全写了出来。同期,鸭哥和社群里很多人在同一周里感受到了跨模型的基础能力倒退:Opus 4.8的思考深度下降(根源是默认effort从xhigh悄悄降到了high),DS V4的代码质量与benchmark数字之间的裂缝大到十几个百分点。这两件事放在一起指向一个判断:AI产业正在经历一次信任账簿的换页——从信模型分数,转向信研发过程的透明度。 一份109页的报告,比一个模型更有信息量...
[鸭哥 AI 手记] 2026-06-02: 后台 Agent 来了,三巨头同日亮牌 懒人包:同一天三件事:Google 向美国用户推送了 Gemini Spark(首个消费级后台常驻 agent),NVIDIA 在 Computex 发布了让笔记本原生跑 120B 模型的 RTX Spark 芯片,腾讯因为微信要内置 AI agent 股价一天涨了 10%。这三件事共用一个判断:agent 的战场从模型能力转向了分发渠道。谁能把 agent 镶进用户的日常路径里,谁就拿到下一张牌。但另一组数据也在同一天浮现:Uber 开始限制每人每月 $1,500 的 AI 编码工具额度,Uber 同一天开始限制每人每月 $1,500 的 AI 工具额度。当 agent 在你睡觉的时候也在干活,按 token 计费的定价模型还撑得住吗? Agent 把聊天框拆了,钻进了后台 鸭哥昨天写了一篇分析,围绕 Google 上周推送的 Gemini Spark 展开。Spark 是一个 24/7 在后台运行的个人 agent,跑在 Google Cloud 的专用 VM...
[鸭哥 AI 手记] 2026-06-01: AI 平台签了一份自己没读过的安全合同 懒人包:今年前五个月,卡巴斯基检测到超过 92,000 次伪装成 AI 服务的恶意攻击,其中伪造 ChatGPT 占 49%。同一周,安全研究者展示了说服 Meta AI 客服重置任意 Instagram 账号密码的完整路径。这两件事共享同一个缺陷:AI 平台推出了功能,却没有为这些功能在安全层面签下的隐性合同做设计。另一面,鸭哥自己做了一个实验:三个月里网站周活从 2,500 涨到 7,000,全程 AI 自动运营,本人每天花两分钟。它的成立条件恰好说明:AI 擅长的不是没有边界的事情,而是边界清晰的自动化闭环。夹在两者之间的,是硅谷大厂正在因 agentic AI 单任务 token 消耗暴涨 1,000 倍而全面收紧员工用量。 AI 平台签了一份自己没读过的合同 鸭哥昨天写了两篇安全分析,碰巧指向同一个结构缺陷。 第一篇,共享 AI 链接,一个没人签合同的内容托管平台:ChatGPT 和 Claude 的共享聊天链接正在被攻击者用来分发恶意软件。攻击路径简单到不需要任何技术突破。在...