[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘

> 5月12日Google在Android Show上同时发布Gemini Intelligence和Gboard Rambler。一个让AI跨app直接操作你手机上的任何应用，一个把免费语音输入预装进默认键盘。两件事往同一个方向指：当模型之间的差距在缩小，谁已经握着电源键和键盘，谁赢。

懒人包：先看那个12年前写死的限制。iOS从2014年起禁止第三方键盘访问麦克风，创业公司只能靠维持后台音频会话绕过，代价是蓝牙冲突和耗电。Google的Rambler不需要：它在系统层。这个物理级别的壁垒，不是任何一家语音输入创业公司靠产品迭代能跨过去的。另一边，Claude Code这周推出的/goal功能在群里炸了锅，给个目标就让AI无限烧token跑，有人兴奋有人骂。但这件事和Google双发在讲同一个逻辑：AI工具的下半场，竞争变量从模型质量移到了入口位置和信任机制。

Google一天发了两样东西，打的都不是模型战

鸭哥昨天连续发了两篇文章，一篇讲Google的Gemini Intelligence（他们建Connector，Google调系统），一篇讲Gboard Rambler（AI语音输入的胜负不在模型层，在键盘层）。两篇指向同一个判断，Google在同一天的Android Show上用产品把它具象化了。

Gemini Intelligence的核心机制说起来简单：Android上每个app都可以通过AppFunctions暴露自己的功能接口，Gemini作为系统组件直接调用。不建Connector，不模拟截图点击。鸭哥的文章算了一笔效率账：OS级直接调用比Connector快一个数量级，Connector比模拟GUI快一个数量级。Google走第一条路，OpenAI和Anthropic困在后两条。

代价不是工程成本。鸭哥点出了一个更深的问题：想让AI操作Uber，Uber总得提供一个入口——适配逃不掉。差别在于谁能推动开发者去做。Google可以群发邮件说"下一个Android版本的平台级功能，实现这套接口你的app就能被AI调用，不实现你的竞品会实现"。OpenAI发同样的邮件，开发者会问"为什么？我的用户又不会因为这个多下载我的app。"说服力差了几个数量级。

语音输入这边，故事更扎眼。Gboard Rambler发布当天，鸭哥在群里分享了文章，有人立刻提到用上了豆包的语音输入"触发超级方便"，同时补了一句"永远不要年度订阅"。这个反应说明一件事：当平台方进场，用户对创业公司付费产品的耐心是有限的。

但关键不在Rambler本身，在iOS上那条12年前写死的限制。鸭哥文章里引了WhisperBoard开源项目作者放弃做iOS键盘扩展时写的话：keyboard extensions still can't access the microphone directly。Typeless和Wispr Flow能工作，靠的是维持后台音频会话。用户上了车发现蓝牙播不了音乐，排查一圈才知道是听写app占着音频通道。而Apple内置听写在键盘上有一个直接按的麦克风按钮，不需要后台音频通道，不存在蓝牙冲突。这个不对称不是产品能力能跨越的。

这两个产品的共同点在另一个层面也很清楚：欧盟DMA裁决正在盯着这件事。Android Headlines今年4月报道（Android Headlines），欧盟正在要求Google允许ChatGPT、Claude获得与Gemini相同的系统级权限。目前DMA尚未裁决。如果通过，长按电源键这个入口要对ChatGPT开放。但那是后话，今天的现实是，Google同时守住了两个入口：操作系统和输入法。

历史上有过类似的剧本。Apple Passwords发布后1Password照样活得不错，CleanShot X在macOS原生截图工具存在的情况下卖29美元仍然有人买。Grammarly在平台拼写检查内置三十多年后做到130亿美元估值。生存的前提是它们实打实提供了内置工具做不到的功能。鸭哥在文章结尾给了判断：语音输入的创业公司在桌面端专业用户那里仍然有空间，在全局快捷键、深度系统集成这些键盘限制管不到的地方。移动端的大众市场，入口在键盘上，键盘是平台的。

从/goal到tokenmaxxing：AI的信任刻度盘被拧到了最大档

群里今天因为Claude Code的/goal功能吵了一架。杨正武说得最直："有点不好玩了啊，都用goal，给个目标无限烧呗，开了水龙头无限放水呗。"多喝热水追问："如果中间不就没有设计了吗，一句话生成出来的到底是个啥东西。"cxuan接了一句更狠："不评审把控就是垃圾，随意发挥很容易飘。"

但也有不同的用法。胥克谦在群里分享了自己的模式："我现在都是靠暴力了，5个以上subagent独立出方案，然后做分析判定。对问题审查，必须3个以上subagent同时判定为真。"同样是烧token，方向完全相反。一个是用多余token减少人工判断，一个是用多余token做交叉验证提高可靠性。

/goal功能的官方文档还没有收录具体的机制细节。Anthropic在3月已经发布了auto mode的安全架构（Anthropic Engineering），用两层分类器做实时安全拦截：第一层快速过滤，第二层对高风险行为做推理判断。但这个架构的安全边界并不完美：Anthropic自己披露的第二层分类器漏报率约17%。每6个危险行为漏1个。在/goal这个更高抽象层级上，用户连中间步骤都不看了，可靠性问题会进一步放大。

Princeton团队今年2月发表的论文（arXiv）提供了一个系统性的度量框架：通用agent benchmark上，可靠性改进速度只有准确率改进速度的一半；客服benchmark上，只有七分之一。他们给当前最强模型的综合可靠性评分在85%上下。换句话说，能力在涨，但对于"自主部署"这个场景，可靠性的瓶颈在系统设计层，不在模型层。

这时候回头再看Amazon的tokenmaxxing，逻辑就通了。Financial Times在5月确认了这件事（Tom's Hardware转述了付费报道）：Amazon给开发者定了超过80%的周度AI使用率KPI，内部追踪token消耗并上排行榜。员工用各种手段人为抬高使用量，造出了一个新词叫tokenmaxxing。Meta的内部AI使用排行榜在曝光后几天内撤下。Jensen Huang公开表态一名年薪50万美元的工程师每年应至少消耗25万美元的AI token。群里Song给这件事配了最好的注脚："开皮卡吃牛排的碳是低俗的碳，烧token的碳是高尚的碳。"

这两条线，/goal把自主执行推到极致，tokenmaxxing把用量变成KPI，合在一起指向同一个问题。当AI消耗量变成了被追踪、被考核、被炫耀的数字，消耗量的意义就开始飘移。Princeton论文的结论如果放在这里：没有验证能力的自主agent，加没有产出度量的消耗KPI，就是两套各自运转的信任机制。中间缺了一个把"烧了多少"和"烧出了什么"连起来的验证层。

冯骐在群里讲的经历很形象："大部分时候挺好玩，但是有的时候是瞎折腾，早就该停了还在那瞎搞。基本等你看到的时候已经一地鸡毛，血压暴涨。"他知道问题在哪，但他不知道该怎么在/goal模式下提前拦住它。这个问题的答案可能不在模型那一侧。

也值得知道

OpenAI vs Musk庭审：5月11日Ilya Sutskever出庭，确认持有70亿美元OpenAI股权。5月12日Sam Altman亲自出庭作证。案件进入最后冲刺周，Musk索赔高达1340亿美元。（Business Insider，CNN）

黄仁勋乘空军一号随Trump访华：Nvidia CEO最初未受邀，Trump看到媒体报道后亲自打电话邀请。代表团包括Musk、Cook等17位美企高管，但半导体出口管制突破可能性不大。（CNBC）

DeepSeek首轮融资估值500亿美元：国家大基金领投，创始人梁文锋个人投入200亿人民币。融资条件绑定昇腾和海光国产算力，阿里因"仍部分依附海外算力生态"未进核心投资圈。（TechCrunch）

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘

[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘

Google一天发了两样东西，打的都不是模型战

从/goal到tokenmaxxing：AI的信任刻度盘被拧到了最大档

也值得知道

[鸭哥 AI 手记] 2026-05-11: 同一天发明同一家公司，然后背道而驰

[鸭哥 AI 手记] 2026-05-10: Agentforce 800M、专利里的思考标注、agentOS 雏形

[鸭哥 AI 手记] 2026-05-09: DeepSeek 没说的、HTML 没证的、TDD 没测的