[鸭哥 AI 手记] 2026-06-04: Uber烧完全年AI预算，设了$1500上限

懒人包：Uber 今年全年的 AI 工具预算在四个月内就烧完了，随后给每位员工设了每工具每月 $1,500 的消费上限。CTO 承认消费速度是预算预期的大约三倍，COO 表示至今无法把 AI 使用量对等到实际的消费者功能产出。同一周，OpenAI 发了一份报告，主张把 AI 熟练度定位成像宽带一样的基础经济设施，而 Anthropic 公开了自己的 80% 代码由 Claude 生成、工程师产出是 2024 年八倍的同时，又警告递归自我改进的 AI 系统需要监管干预。这三件事放在一起，指向同一个判断：AI 产业当前的最大瓶颈已经从模型能力转移到了组织吸收能力。另一边，AlphaEvolve 在 TPU 电路设计和 DNA 测序纠错上持续出成果，但 GPT-5.5 在 OpenAI 自己内部真实工程问题上的得分是 1.7%。

Uber 烧钱的四个数字和三个问题

看四个数字。Uber 给全体使用 AI 编程工具的员工设了每工具每月 $1,500 的上限，按工具独立计算：Cursor 的额度不影响 Claude Code 的额度（Bloomberg）。公司全年 AI 预算在四个月内耗尽。去年 Uber 还在用排行榜激励员工多用 AI。COO Andrew Macdonald 的原话是，至今难以把 AI 使用数据对等到“实际产出了更多有用的消费者功能”。

这三个数字背后是三个在行业层面有普遍性的问题。第一，预算烧得比预想快三倍，说明企业低估了 agentic 工具的 token 消耗量。第二，用排行榜推广使用量又突然设上限，说明推广时没有同时设计衡量产出的机制。第三，COO 公开承认产出不可见，这比预算超支本身更麻烦。它意味着 AI 工具的产品设计里缺少对组织成本归因的支持。

Uber 不是个案。GitHub Copilot 在 5 月底把计费模式改成按 token 计价，开发者群体在 TechCrunch 评论区的反馈概括起来是一句“What a joke”（TechCrunch）。McKinsey 的最新调查数据更直接：88% 的受访组织在 2025 年至少在一个业务功能中使用了 AI，但只有 7% 表示 AI 已完全部署和集成到整个组织（Chronus 分析）。从“用了”到“用上了”，中间差的不是工具能力，是组织把 AI 的输出接到自己业务衡量体系里的能力。

同一周，OpenAI 发布了一份题为《知识工作的下一个时代》的报告（PDF），把 Codex 定位成信息工作的“工厂重新设计”。报告的核心叙事框架借用了经济学家 Erik Brynjolfsson 的生产率悖论：通用技术从部署到产生可测量的生产率提升之间有漫长的滞后，因为组织需要围绕新技术重建工作流、管理结构和技能体系。报告里引了一个精准的案例。十九世纪八十年代，美国工厂把蒸汽机换成电动机后，厂房布局没变，所有机器仍然通过天轴和皮带连到中央动力源，生产率几十年来几乎没有提升。直到工厂围绕电动机重新设计了物理布局：每台机器独立供电、产线按流程顺序排列、按需启停。生产率直到这个阶段才开始跳升。电动机一直是那个电动机，变的是组织方式。

鸭哥昨天发布的文章把这段历史和当下的 AI 转型做了对照（OpenAI 最新报告：会用 AI 正在从竞争优势变成生存门槛）。他的核心判断是，报告真正在说的不是“模型又变强了”。Codex 周活超过五百万也好、知识工作者采用速度是开发者的三倍以上也好、50% 的用户每天并行跑多个任务也好，这些数字指向的是同一件事：AI 工具正在从专业人员的生产力工具变成完成工作的基础能力。报告的四条政策建议串成一条推理链：现代化公共部门工作流、把 AI 熟练度当基础设施、让最接近问题的人主导 AI 采用、按“要完成的工作”更新采购规则。鸭哥写道，公司“应当让直接做业务的人来自下而上主导 AI 变革，而不是从上向下推进”。

群里腾讯的内部政策调整正好提供了另一个角度的验证。彭超分享的财联社报道显示，腾讯已在内部宣布 AI token 投入提升几十倍，同时明确“看产出不看消耗，不搞 token 消耗量排名，不贩卖焦虑”（财联社）。这和 OpenAI 报告的方向一致：把讨论从“用了多少 token”转到“做成了什么事”。钛媒体的深度分析指出，腾讯 2025 年在混元和元宝上的投入约 180 亿元，预计 2026 年翻一番（钛媒体）。

把这三个信号放在一起看：Uber 在刹车、OpenAI 在踩油门、腾讯在换挡。方向不同，但背后是同一个判断：当前问题不是模型够不够好，是组织能不能吸收。电动工厂的类比在这里会产生一个反直觉的推论：如果 Uber 退回去只看消耗数字而不是重构组织方式，它的生产率也会在接下来的很长一段时间里是平的。

AlphaEvolve 做对了两件事，但有第三件事它碰都没碰

鸭哥昨天发布了第二篇深度分析，从根上拆解了 DeepMind 的 AlphaEvolve（从根上拆解 AlphaEvolve）。这篇文章的核心判断是：AlphaEvolve 不是 AGI，它真正的突破在于把两个各自有死穴的技术路线拼在了一起：拿掉遗传算法里最蠢的零件、也就是随机变异算子，换成 LLM，让它做有语义方向感的代码改动。LLM 负责提方案，进化框架负责做选择。

AlphaEvolve 的实际应用范围比中文媒体的 AGI 叙事宽得多。Google 内部用它优化了下一代 TPU 的硅级电路设计，Jeff Dean 证实部分反直觉的电路设计已被直接集成进芯片。Borg 数据中心的作业调度经过优化后恢复了全球计算资源的 0.7%。PacBio 用它改进了 DeepConsensus DNA 测序纠错模型，变异检测错误降低了 30%。Klarna 用它把最大的 transformer 模型训练速度翻了一倍。JetBrains 用它优化了 IntelliJ IDEA 的 B-tree 索引实现，在合成基准上取得了 15% 到 20% 的性能提升（JetBrains Blog）。

这些案例有一个共同特征。每个问题都有一个可以用自动化方式验证正确性的 evaluator。电路设计有仿真器评分，作业调度有资源利用率可测，测序纠错有 ground truth 比对，B-tree 有吞吐量 benchmark。AlphaEvolve 不需要知道最优解长什么样，只需要一个能打分的 evaluator。

但真实工作流里的大部分问题不是这样的。GPT-5.5 在 OpenAI 的内部基准 OPQA 上，面对 20 个真实内部工程瓶颈问题，包括性能退化诊断和训练指标异常定位，得分只有 1.7%（GPT-5.5 System Card 分析）。同一个模型在 Terminal-Bench 2.0 上的得分是 82.7%。两个数字之间差了将近两个数量级。

群里郝小贱分享了一组来自某个 CLI 长工作流 benchmark 的数据，其中最难层级的完全通过率只有约 2.6%。这组数据的具体 benchmark 名称目前无法在公开来源中交叉验证，但它描述的模式和 OPQA 的数据完全一致：从可控基准跳到真实任务时通过率跌落一个数量级。失败类型分布中，方法错误占 47%，理解错误占 31%，执行错误占 22%。作者的核心判断是瓶颈在模型的专业理解和领域知识，不是单纯的 harness 工程。

这就是 AlphaEvolve 碰都没碰的那个问题。AlphaEvolve 需要一个可以被自动化打分的工作，而现实世界里的工作大多数没有这个条件。定义“什么是好”本身往往就是最困难的那一步。什么时候你有端到端的自动化评估，什么时候 AI 能在那个领域做出 AlphaEvolve 级别的成果。在没有自动化评估的领域，一切又回到了人的判断。而人的判断，恰恰是组织吸收瓶颈最窄的那一段。

也值得知道

DeepSeek 首轮融资约 74 亿美元，估值 520 亿到 590 亿美元：参与方包括腾讯（约 14.6 亿美元）、宁德时代（约 7.3 亿美元）和国家 AI 基金。梁文锋个人承诺注资约 28.5 亿美元，向投资者表示优先突破性 AI 研究而非短期商业化（Reuters）。宁德时代的加入标志着中国 AI 基础设施正在形成从能源到模型的垂直整合。

Anthropic 一边申请 IPO 一边警告 AI 自我进化风险：6 月 4 日，Anthropic Institute 发布由 Marina Favaro 和 Jack Clark 撰写的博客，警告递归自我改进的 AI 系统需要多实验室联合核查和临时暂停机制。同一周，公司刚提交了约 9650 亿美元估值的机密 IPO 申请，年化收入 470 亿美元（Axios）。

前 OpenAI 研究员姚舜宇出任腾讯首席 AI 科学家：6 月 5 日报道，公开表示要在中国“建立一个长期 AGI 组织”，标志着中国 AI 人才从应用优先转向 AGI 叙事（CNBC）。

苹果 WWDC 下周开幕，Siri 预计接入 Gemini：iOS 系统级 AI 重大改造，可能推出独立 Siri App 和 AI Agent App Store（TechCrunch）。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：daily.yage.ai

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-04: Uber烧完全年AI预算，设了$1500上限

[鸭哥 AI 手记] 2026-06-04: Uber烧完全年AI预算，设了$1500上限

Uber 烧钱的四个数字和三个问题

AlphaEvolve 做对了两件事，但有第三件事它碰都没碰

也值得知道

[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物

[鸭哥 AI 手记] 2026-06-02: 后台 Agent 来了，三巨头同日亮牌

[鸭哥 AI 手记] 2026-06-01: AI 平台签了一份自己没读过的安全合同