[鸭哥 AI 手记] 2026-06-02: 后台 Agent 来了,三巨头同日亮牌


[鸭哥 AI 手记] 2026-06-02: 后台 Agent 来了,三巨头同日亮牌

懒人包:同一天三件事:Google 向美国用户推送了 Gemini Spark(首个消费级后台常驻 agent),NVIDIA 在 Computex 发布了让笔记本原生跑 120B 模型的 RTX Spark 芯片,腾讯因为微信要内置 AI agent 股价一天涨了 10%。这三件事共用一个判断:agent 的战场从模型能力转向了分发渠道。谁能把 agent 镶进用户的日常路径里,谁就拿到下一张牌。但另一组数据也在同一天浮现:Uber 开始限制每人每月 $1,500 的 AI 编码工具额度,Uber 同一天开始限制每人每月 $1,500 的 AI 工具额度。当 agent 在你睡觉的时候也在干活,按 token 计费的定价模型还撑得住吗?

Agent 把聊天框拆了,钻进了后台

鸭哥昨天写了一篇分析,围绕 Google 上周推送的 Gemini Spark 展开。Spark 是一个 24/7 在后台运行的个人 agent,跑在 Google Cloud 的专用 VM 上,关了电脑它继续工作:读邮件、查日历、在条件触发时自动执行多步操作。

The Verge 的 Jay Peters 做了第一个深度评测,抓住了这个产品最核心的矛盾。Peters 让 Spark 从 Drive 预算表里提取月度食品开支、计算平均值、找到他妻子的邮箱、起草邮件。Spark 全做对了,连他们夫妻之间的私人签名落款都用上了。Peters 的原话是"Wow, that's actually nuts."但同一个 Spark,在策划街区派对的开放任务里开始编造不存在的共享报名表,邮件里提到的东西有些根本不存在。

评价 Spark 好不好用不是重点。形态翻页才是。鸭哥在 文章 里追溯了 agent 产品形态的四代演化:第一代聊天窗口,用完状态归零。第二代 agentic 工具(Cursor、Claude Code),能读写文件但还在对话框里。第三代后台 agent(Cursor Background Agents、Codex Automations),能定时跑,但仍是开发者工具。Spark 是第四代:第一个大型平台向消费者推出的常驻守护进程。

这个形态切换在三个维度上改写了竞争规则。第一,使用频率。聊天窗口的上限是你想起去问的次数,守护进程的下限是你忘记关掉它的次数。第二,平台锁定。切换聊天产品的成本是导出对话记录,切换守护进程的成本是重建所有跨应用的工作流、规则和个人上下文。Google 的 Workspace (Gmail、Calendar、Drive) 给 Spark 提供了一条不需要第三方 API 桥接的直通路径,Anthropic 和 OpenAI 目前没有对等的消费者生产力套件。第三,context 的时效性。聊天窗口拿到的 context 是静态快照,守护进程的 context 持续更新。

三件事合在一起做了一件事:把 agent 从工具变成了环境。Manus 替你干活,但需要你告诉它什么时候干。Spark 替你盯着,不需要你叫它去看。

但 Peters 评测里有一句话暴露了守护进程的根本矛盾:「I found myself constantly watching it or checking the notifications it sent to my phone。」如果后台 agent 的可靠性逼你回到盯着看的模式,它就没兑现守护进程的价值。

这个问题不全是模型能力的事。它首先是系统设计的事。Cursor 的后台 agent 上线后,社区反馈里反复出现同一类故障:agent 偏离规划后缺乏护栏,在无人监督时自行改变方向、陷入自我验证死循环、大量消耗 token 而无实质进展(Cursor Forum)。Google 对 Spark 的安全策略也验证了这个判断:所有 Workspace 连接默认关闭,花钱和发邮件前必须人工确认,分 trusted testers 和 US-only beta 逐步放开。Digital Applied 在技术分析里把这种策略称为控制 blast radius,因为守护进程出错的影响范围远比会话级 agent 大。

不过话说回来,如果每次行动都要弹出确认框,那守护进程和聊天窗口的区别就只剩一个:你不用自己点开它。省了一秒。


同一天亮牌的不只 Google

6 月 2 日前后还有两个事件在跑同一条逻辑。

NVIDIA 在 Computex 2026 发布了 RTX Spark,Blackwell 架构 SoC,6,144 CUDA 核心,最高 128GB 统一内存,1 PFLOPS FP4 算力,能在本地跑 120B 参数模型(CNET)。微软配合推出了 Surface Laptop Ultra,Windows 端在 Taskbar 里嵌入了 Agent 入口,和 NVIDIA 联合开发了 OpenShell 安全沙箱用于 Agent 的权限控制。Jensen Huang 的原话是"你开口,PC 干活"。NVIDIA 还公布了多代路线图:Blackwell Spark (2026)、Rubin Spark (2027-2028)、Rosa Feynman Spark (2029-2030)。

Google 从 Workspace 起手,NVIDIA 和微软从设备和操作系统起手。路线不同,方向一样:把 agent 从「一个你主动打开的应用」变成「每台设备自带的默认层」。

腾讯也在同一天被 Bloomberg 报道正在为微信开发内嵌式 AI Agent,用户右滑即可调出对话窗口,agent 能自动调用微信生态内数百万个小程序完成订餐、预约等任务。腾讯股价当日涨了 10.46%,一天涨掉 3000 亿港币市值(财联社)。微信的护城河不在模型或入口,在 14 亿月活用户和数百万小程序构成的服务闭环。这个闭环没有任何其他平台有对等版本。

把三件事放在一起看,agent 的竞争逻辑已经换了一层。半年前大家还在比谁的模型在 benchmark 上多几个点,现在比的变成了谁有最多的设备、最大的生态和最深的用户路径。模型退成了基础能力,分发变成了主战场。

这也解释了为什么微软在 Build 2026 发布 MAI-Thinking-1(自家首个高级推理模型)的同时,内部通知员工在 6 月 30 日前停用 Claude Code 全面转向 GitHub Copilot CLI。有分发渠道的公司,有动力也有能力用渠道约束力把用户推向自家工具。这跟技术好坏关系不大,跟谁控制了入口关系很大。


也值得知道

Anthropic 于 6 月 1 日秘密提交 S-1:收入 run-rate 从去年约 $10B 飙到今年 5 月约 $47B,与 SpaceX、OpenAI 共同组成 2026 年三大万亿级 IPO(Anthropic)。

Uber 限制每人每月 $1,500 AI 编码工具额度,CTO 上月已透露用完了全年 AI 预算。Goldman Sachs 预测 2026 至 2030 年 token 消耗量将增长 24 倍(Bloomberg)。

DeepSeek 启动首轮外部融资约 $7.4B,估值 $52-59B,腾讯出资 100 亿人民币,宁德时代出资 50 亿,创始人梁文峰以个人资金出资 200 亿保持控制权(Reuters)。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:daily.yage.ai

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-04: Uber烧完全年AI预算,设了$1500上限 懒人包:Uber 今年全年的 AI 工具预算在四个月内就烧完了,随后给每位员工设了每工具每月 $1,500 的消费上限。CTO 承认消费速度是预算预期的大约三倍,COO 表示至今无法把 AI 使用量对等到实际的消费者功能产出。同一周,OpenAI 发了一份报告,主张把 AI 熟练度定位成像宽带一样的基础经济设施,而 Anthropic 公开了自己的 80% 代码由 Claude 生成、工程师产出是 2024 年八倍的同时,又警告递归自我改进的 AI 系统需要监管干预。这三件事放在一起,指向同一个判断:AI 产业当前的最大瓶颈已经从模型能力转移到了组织吸收能力。另一边,AlphaEvolve 在 TPU 电路设计和 DNA 测序纠错上持续出成果,但 GPT-5.5 在 OpenAI 自己内部真实工程问题上的得分是 1.7%。 Uber 烧钱的四个数字和三个问题 看四个数字。Uber 给全体使用 AI 编程工具的员工设了每工具每月 $1,500 的上限,按工具独立计算:Cursor...

[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物 懒人包:6月2日,微软在Build大会上发布了MAI-Thinking-1的109页技术报告。这不是又一份"我们做了个模型"的公关稿——它把顶尖AI实验室内部公认但从未公开的研发决策方法论,从数据配比的rank invariance失败到攀爬机器的MFU-EG双轴演化,全写了出来。同期,鸭哥和社群里很多人在同一周里感受到了跨模型的基础能力倒退:Opus 4.8的思考深度下降(根源是默认effort从xhigh悄悄降到了high),DS V4的代码质量与benchmark数字之间的裂缝大到十几个百分点。这两件事放在一起指向一个判断:AI产业正在经历一次信任账簿的换页——从信模型分数,转向信研发过程的透明度。 一份109页的报告,比一个模型更有信息量...

[鸭哥 AI 手记] 2026-06-01: AI 平台签了一份自己没读过的安全合同 懒人包:今年前五个月,卡巴斯基检测到超过 92,000 次伪装成 AI 服务的恶意攻击,其中伪造 ChatGPT 占 49%。同一周,安全研究者展示了说服 Meta AI 客服重置任意 Instagram 账号密码的完整路径。这两件事共享同一个缺陷:AI 平台推出了功能,却没有为这些功能在安全层面签下的隐性合同做设计。另一面,鸭哥自己做了一个实验:三个月里网站周活从 2,500 涨到 7,000,全程 AI 自动运营,本人每天花两分钟。它的成立条件恰好说明:AI 擅长的不是没有边界的事情,而是边界清晰的自动化闭环。夹在两者之间的,是硅谷大厂正在因 agentic AI 单任务 token 消耗暴涨 1,000 倍而全面收紧员工用量。 AI 平台签了一份自己没读过的合同 鸭哥昨天写了两篇安全分析,碰巧指向同一个结构缺陷。 第一篇,共享 AI 链接,一个没人签合同的内容托管平台:ChatGPT 和 Claude 的共享聊天链接正在被攻击者用来分发恶意软件。攻击路径简单到不需要任何技术突破。在...