[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘


[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘

> 5月12日Google在Android Show上同时发布Gemini Intelligence和Gboard Rambler。一个让AI跨app直接操作你手机上的任何应用,一个把免费语音输入预装进默认键盘。两件事往同一个方向指:当模型之间的差距在缩小,谁已经握着电源键和键盘,谁赢。

懒人包:先看那个12年前写死的限制。iOS从2014年起禁止第三方键盘访问麦克风,创业公司只能靠维持后台音频会话绕过,代价是蓝牙冲突和耗电。Google的Rambler不需要:它在系统层。这个物理级别的壁垒,不是任何一家语音输入创业公司靠产品迭代能跨过去的。另一边,Claude Code这周推出的/goal功能在群里炸了锅,给个目标就让AI无限烧token跑,有人兴奋有人骂。但这件事和Google双发在讲同一个逻辑:AI工具的下半场,竞争变量从模型质量移到了入口位置和信任机制。

Google一天发了两样东西,打的都不是模型战

鸭哥昨天连续发了两篇文章,一篇讲Google的Gemini Intelligence(他们建Connector,Google调系统),一篇讲Gboard Rambler(AI语音输入的胜负不在模型层,在键盘层)。两篇指向同一个判断,Google在同一天的Android Show上用产品把它具象化了。

Gemini Intelligence的核心机制说起来简单:Android上每个app都可以通过AppFunctions暴露自己的功能接口,Gemini作为系统组件直接调用。不建Connector,不模拟截图点击。鸭哥的文章算了一笔效率账:OS级直接调用比Connector快一个数量级,Connector比模拟GUI快一个数量级。Google走第一条路,OpenAI和Anthropic困在后两条。

代价不是工程成本。鸭哥点出了一个更深的问题:想让AI操作Uber,Uber总得提供一个入口——适配逃不掉。差别在于谁能推动开发者去做。Google可以群发邮件说"下一个Android版本的平台级功能,实现这套接口你的app就能被AI调用,不实现你的竞品会实现"。OpenAI发同样的邮件,开发者会问"为什么?我的用户又不会因为这个多下载我的app。"说服力差了几个数量级。

语音输入这边,故事更扎眼。Gboard Rambler发布当天,鸭哥在群里分享了文章,有人立刻提到用上了豆包的语音输入"触发超级方便",同时补了一句"永远不要年度订阅"。这个反应说明一件事:当平台方进场,用户对创业公司付费产品的耐心是有限的。

但关键不在Rambler本身,在iOS上那条12年前写死的限制。鸭哥文章里引了WhisperBoard开源项目作者放弃做iOS键盘扩展时写的话:keyboard extensions still can't access the microphone directly。Typeless和Wispr Flow能工作,靠的是维持后台音频会话。用户上了车发现蓝牙播不了音乐,排查一圈才知道是听写app占着音频通道。而Apple内置听写在键盘上有一个直接按的麦克风按钮,不需要后台音频通道,不存在蓝牙冲突。这个不对称不是产品能力能跨越的。

这两个产品的共同点在另一个层面也很清楚:欧盟DMA裁决正在盯着这件事。Android Headlines今年4月报道(Android Headlines),欧盟正在要求Google允许ChatGPT、Claude获得与Gemini相同的系统级权限。目前DMA尚未裁决。如果通过,长按电源键这个入口要对ChatGPT开放。但那是后话,今天的现实是,Google同时守住了两个入口:操作系统和输入法。

历史上有过类似的剧本。Apple Passwords发布后1Password照样活得不错,CleanShot X在macOS原生截图工具存在的情况下卖29美元仍然有人买。Grammarly在平台拼写检查内置三十多年后做到130亿美元估值。生存的前提是它们实打实提供了内置工具做不到的功能。鸭哥在文章结尾给了判断:语音输入的创业公司在桌面端专业用户那里仍然有空间,在全局快捷键、深度系统集成这些键盘限制管不到的地方。移动端的大众市场,入口在键盘上,键盘是平台的。


从/goal到tokenmaxxing:AI的信任刻度盘被拧到了最大档

群里今天因为Claude Code的/goal功能吵了一架。杨正武说得最直:"有点不好玩了啊,都用goal,给个目标无限烧呗,开了水龙头无限放水呗。"多喝热水追问:"如果中间不就没有设计了吗,一句话生成出来的到底是个啥东西。"cxuan接了一句更狠:"不评审把控就是垃圾,随意发挥很容易飘。"

但也有不同的用法。胥克谦在群里分享了自己的模式:"我现在都是靠暴力了,5个以上subagent独立出方案,然后做分析判定。对问题审查,必须3个以上subagent同时判定为真。"同样是烧token,方向完全相反。一个是用多余token减少人工判断,一个是用多余token做交叉验证提高可靠性。

/goal功能的官方文档还没有收录具体的机制细节。Anthropic在3月已经发布了auto mode的安全架构(Anthropic Engineering),用两层分类器做实时安全拦截:第一层快速过滤,第二层对高风险行为做推理判断。但这个架构的安全边界并不完美:Anthropic自己披露的第二层分类器漏报率约17%。每6个危险行为漏1个。在/goal这个更高抽象层级上,用户连中间步骤都不看了,可靠性问题会进一步放大。

Princeton团队今年2月发表的论文(arXiv)提供了一个系统性的度量框架:通用agent benchmark上,可靠性改进速度只有准确率改进速度的一半;客服benchmark上,只有七分之一。他们给当前最强模型的综合可靠性评分在85%上下。换句话说,能力在涨,但对于"自主部署"这个场景,可靠性的瓶颈在系统设计层,不在模型层。

这时候回头再看Amazon的tokenmaxxing,逻辑就通了。Financial Times在5月确认了这件事(Tom's Hardware转述了付费报道):Amazon给开发者定了超过80%的周度AI使用率KPI,内部追踪token消耗并上排行榜。员工用各种手段人为抬高使用量,造出了一个新词叫tokenmaxxing。Meta的内部AI使用排行榜在曝光后几天内撤下。Jensen Huang公开表态一名年薪50万美元的工程师每年应至少消耗25万美元的AI token。群里Song给这件事配了最好的注脚:"开皮卡吃牛排的碳是低俗的碳,烧token的碳是高尚的碳。"

这两条线,/goal把自主执行推到极致,tokenmaxxing把用量变成KPI,合在一起指向同一个问题。当AI消耗量变成了被追踪、被考核、被炫耀的数字,消耗量的意义就开始飘移。Princeton论文的结论如果放在这里:没有验证能力的自主agent,加没有产出度量的消耗KPI,就是两套各自运转的信任机制。中间缺了一个把"烧了多少"和"烧出了什么"连起来的验证层。

冯骐在群里讲的经历很形象:"大部分时候挺好玩,但是有的时候是瞎折腾,早就该停了还在那瞎搞。基本等你看到的时候已经一地鸡毛,血压暴涨。"他知道问题在哪,但他不知道该怎么在/goal模式下提前拦住它。这个问题的答案可能不在模型那一侧。


也值得知道

OpenAI vs Musk庭审:5月11日Ilya Sutskever出庭,确认持有70亿美元OpenAI股权。5月12日Sam Altman亲自出庭作证。案件进入最后冲刺周,Musk索赔高达1340亿美元。(Business InsiderCNN

黄仁勋乘空军一号随Trump访华:Nvidia CEO最初未受邀,Trump看到媒体报道后亲自打电话邀请。代表团包括Musk、Cook等17位美企高管,但半导体出口管制突破可能性不大。(CNBC

DeepSeek首轮融资估值500亿美元:国家大基金领投,创始人梁文锋个人投入200亿人民币。融资条件绑定昇腾和海光国产算力,阿里因"仍部分依附海外算力生态"未进核心投资圈。(TechCrunch


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-11: 同一天发明同一家公司,然后背道而驰 > 5月4日,OpenAI给PE开了17.5%年化保底回报来帮自己卖AI,Anthropic同一天也找了PE做同一件事,但一分保底没给。Google同一天关掉了Project Mariner。三件事指向同一个问题:AI落地的接口到底该长什么样,行业在重新画这条线。 懒人包:先看17.5%这个数字。OpenAI为DeployCo给PE合伙人开了接近PE行业标准两倍的保底回报——不管DeployCo赚不赚钱,每年都得先付这笔钱。Anthropic的合资企业结构一样、目标一样,但没有这个条款。这个差异讲清了AI行业当前最深的分歧:模型和部署,哪个才是核心资产。Google关掉Mariner揭示了同一模式的另一面:当行业试了一圈发现某个方案跑不通之后,反而不约而同地往同一个解法收敛。 17.5%保底和零保底之间,藏着两家公司的自我定义 5月4日,OpenAI和Anthropic先后宣布了同一个结构:与PE成立合资企业,向大型企业部署AI。SiliconSnark的概括最快:「the technology...

[鸭哥 AI 手记] 2026-05-10: Agentforce 800M、专利里的思考标注、agentOS 雏形 > Salesforce 二月份披露 Agentforce ARR 已经 8 亿美元,配套数据是上季度交付了 24 亿个 agentic work units、处理了 19 万亿 token;同一天群里六个小时在吵软件是不是死了。鸭哥昨晚把 Anthropic 的 Computer Use 专利读完,发现真正卖钱的是把"用户为什么这么点"也存进训练样本里。三件事都在重新画 AI 产品的最小交付单元。 懒人包:先看 Salesforce 那个 800M ARR 怎么来的。Q4 FY26 数据是 Agentforce ARR 8 亿美元、同比 +169%、累计 29,000 个 deals、24 亿 agentic work units、19 万亿 token,AWU 这个新计费单位已经在向 AWS 风格的消费量靠拢(InformationMatters)。鸭哥昨天发的 Computer Use 训练管线那篇从一项 2025 年 10 月授权的 Anthropic...

[鸭哥 AI 手记] 2026-05-09: DeepSeek 没说的、HTML 没证的、TDD 没测的 > 鸭哥今天在群里写下一句很冷的观察:DeepSeek 国运级模型那篇文章传得满天飞,但他在全网一直找不到一份 DeepSeek 自己关于 V4 用国产芯片训练的一手官方声明。同一天群里另两件事,是 Anthropic 工程师 Thariq 一句"HTML is the new markdown"在外面冲到 5M 阅读,群里却几乎一边倒说这是为了让你多烧 token 立的稻草人;还有鸭哥昨天那篇 TDD 文章发出来不到一天,圈内已经在讨论真正该测的根本不是 AI 写的代码路径,而是它输出之后的不变量。 懒人包:先看那条没找到的声明。鸭哥昨天看到彭超转的"中美 AI 正式分叉"这类文章后,自己去搜了一圈 DeepSeek 和华为的官方说法(南方都市报今天对彭超的采访同时登出,焦点是 Tokenmaxxing),结论是:Reuters 的措辞是 V4「adapted for Huawei chips」,MIT Technology Review...