> 群里有人让 Codex goal 通宵跑了一个任务,早上起来账单是 $2300,烧了 1.8B token。同一天,Claude 宣布要把 agent 程序化使用从订阅里拆出来单独计费。群里的反应就四个字:"自助餐没有了"。再往大看,Salesforce 和百度在同一个月各自推出了一套新指标,都试图把 AI 的账从"烧了多少 token"换成"完成了多少任务"。三件事不在同一间屋子里谈的,但背后的推力是同一个:token 这个单位正在全面失效。
懒人包:先记住 $2300 这个数字。当 agent 能在后台自行循环执行,token 消耗就不再是可预测的线性曲线。Salesforce 用 AWU(按完成任务数收费)刚交出一份成绩单:Q4 单季 7.71 亿 AWU,环比增 57%。李彦宏同一天在北京提出 DAA(日活智能体数),预测未来全球可能超过 100 亿。两家性质完全不同的公司在同一时间窗口不约而同往同一个方向指:把度量从消耗侧换到产出侧。这不是会计问题,是产品方向的扳道器。另外,李彦宏今天还讲了"日抛型软件",群里为此吵了一架。这件事和指标迁移在讲同一个故事的下半场:当代码变成可丢弃的临时脚手架,值钱的东西不在代码层了。
鸭哥昨天在 AI 行业在找一个新指标 这篇文章里做了一层判断:当行业用 token 当核心指标时,平台的最优策略是让用户消耗更多 token。把指标从输入侧换到输出侧,整个激励结构会跟着翻转:产品团队不再被考核"让用户烧了多少",而是"帮用户完成了多少"。这个判断今天得到了三个新注脚。
第一个来自 Salesforce。AWU 交出了实打实的数据:Q4 2026 单季产生了 7.71 亿 AWU,环比增长 57%,累计 24 亿(Salesforce 官方)。一个 AWU 定义为 agent 完成的一个离散任务——记录更新、工作流触发、API 调用。关键是定价逻辑:agent 成功解决问题才收费,失败不收费。CIO.com 指出这个指标的软肋也很明显,它衡量的是吞吐量,不是质量(CIO.com)。但方向是对的:客户付的是结果,不是消耗。
第二个来自北京。李彦宏今天在 Create 大会上提出 DAA,对标移动互联网的 DAU,预测未来全球日活智能体数可能超过 100 亿(量子位)。他的原话是"token 只代表成本,不代表收益"。AWU 数计件,DAA 数人头,两个 proxy 都不完美,但问题不在具体方案上。两家性质完全不同的公司,在同一个时间窗口,不约而同把度量从"消耗了多少"换到"完成了多少"。
第三个注脚更贴近日常。Anthropic 今天宣布,6 月 15 日起 Agent SDK 和 claude -p 等程序化使用将从订阅中拆出来,给独立月度 credit:Pro 档 $20,Max 5x 档 $100,用完即止(Reddit 官方帖)。这背后是 4 月初的 OpenClaw 事件:一个实例全天自执行可烧掉 $1,000-$5,000 API 成本,而 Max 订阅只收 $200/月(Kingy AI)。
这三件事放在一起看,有一个更底层的经济事实在托底。模型推理成本每年下降 9 到 900 倍(Nevermined),Claude 3 Opus 时期(2024)是 $15/$75 每百万 token,到 Opus 4.7 降到了 $5/$25,降幅 67%。当计费单元本身的价值在缩水,而它的消耗量又在 agent 场景下失控,找新 proxy 就不再是"要不要"的问题。
用输入指标管理任何东西都有一个内建缺陷:它奖励消耗,不奖励效率。token 不是第一个遇到这个问题的指标。2012 年 Facebook IPO 之前,互联网行业用的是 pageview(页面浏览量),一个更早的输入性指标。Facebook 用一场史上最大的 IPO 把 proxy 换成了 MAU。不完美,但和真实价值的创造方向大致对齐。AI 行业现在面临的选择,和 2012 年的互联网行业是同一个形状。
鸡生蛋的环节还没到。AWU 和 DAA 都没有第三方审计,都依赖提出者自己的平台作为计数基础。Salesforce 的方案因为绑定在付费产品上,至少有一个市场检验机制:客户不买单,定价就得改。百度的方案目前更像一个叙事工具。但这一点本身不是关键。关键在方向:当计费单元从"你烧了多少"变成"你买到了什么",做产品的人拿到的不再是同一本说明书。
李彦宏今天在 Create 大会上还有一句话引发了群里的争论:"一次性软件、日抛型软件变得合理,因为开发成本趋近于零。"他现场展示了秒哒 App:90% 的代码由自身智能体生成,其生成的应用估值已达 50 亿元。
群里反应分成两派。有人觉得这就是日常:"其实现在你借助 CC/Codex 干事情,经常临时生产的 Python 就是日抛啊,一天抛好多。"另一派觉得是造概念:"Claude code 和 Codex 为什么不是日抛产品呢,而且越用越上瘾?所以日抛产品简直就是造概念。"冯骐在群里的判断把两件事接上了:"日抛型显然是给甲方讲的故事啊,就是你甲方可以自己日抛做,不需要从乙方买。但是你做日抛呢,又得买 token。这个故事就是 token 供应商出来讲的。"
上一节说 token 作为度量在失效,这一节说软件作为产品形态在变化。两件事讲的其实是同一个问题:你在交付的东西里,真正值钱的到底是什么。
鸭哥之前写过"认知是资产,代码是消耗品"这个判断。当代码生成成本趋近于零时,代码的角色从长期资产变成了临时脚手架,让你爬上去看清楚真相,看清之后就可以毫无负担地拆掉。真正能复利的不是代码成品,是被捕获的认知:对业务的理解、对什么是"好"的定义、验收标准。
回到李彦宏的"日抛型软件"。概念本身有水分。英文开发者社区早在 Tef's Philosophy 里就提过 "build disposable software"(GitHub),不是新洞察。但李彦宏把它和 AI 代码生成直接挂钩、放到一个开发者大会上讲,说明了一个产业信号:当百度这样的大厂开始用这个概念向客户讲故事,"代码不会再像以前那样值钱"已经变成了商业话术。
概念的水分不等于它指向的方向是错的。同一天 Anthropic 推出了 Claude for Small Business,预集成 15 个 agent 工作流,从工资核算到发票催收(Anthropic)。Notion 发布了开发者平台,把自己变成了 AI agent 的枢纽:任何 agent 都可以直接接入 Notion 的数据和工作流(TechCrunch)。这些产品都在做同一件事:把"软件"从用户自己操作的工具,变成 agent 替你完成的结果。形态变了,度量自然也得变。
群里 IQ75 给这场辩论做了一个冷静的分类:软件形态按脚本、工具、流程、平台逐层递进,越往后越无可替代,原因是数据沉淀越多、用户粘性越强。他说"日抛软件"的说法"甚至是有害的"。这个批评有道理,但它可能说反了因果。概念本身不会造成危害,危害来自把概念当真之后做出的资源分配。如果一家企业因为信了"软件都是日抛的"而不做数据沉淀、不建评估体系,那确实会翻车。但如果只是因为代码层可以用完就扔、把精力集中在认知和评估上,那方向没错。
说到底,争论"日抛型软件"用得对不对,不如问一个更具体的问题:当 token 这个度量在失效、软件这个形态在变化,你个人的护城河里放的是什么。放的如果是"我会写代码",它确实在贬值。放的如果是"我知道什么是好代码、什么算完成、用户真正需要什么",度量体系的翻新反而对你有利。
Claude for Small Business 发布:Anthropic 5 月 13 日发布面向小企业的产品包,集成 QuickBooks、PayPal、HubSpot 等,预置 15 个 agent 工作流,同时推出与 PayPal 合作的免费 AI 素养课程。(Anthropic,TechCrunch)
Anthropic 企业客户数首次超越 OpenAI:Ramp AI Index 数据显示,Anthropic 付费企业客户占比 34.4%,超过 OpenAI 的 32.3%。过去一年 Anthropic 份额从 9% 涨到 34.4%。(TechCrunch)
Notion 发布开发者平台,转向 AI Agent 枢纽:Notion 允许用户部署自定义代码、同步外部数据,原生接入 Claude Code、Cursor、Codex 等 agent。(TechCrunch)
Princeton 因 AI 作弊结束 133 年荣誉守则:因 AI 工具使传统荣誉守则难以执行,Princeton 恢复监考制度。这说明评估体系的崩溃不只发生在 AI 行业内部。(The Verge)
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:yage-ai.kit.com
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-05-14: Anthropic打包行业,开发者撞编排墙 > 当Anthropic把金融、法律、小企业的agent工作流打包成标准化产品时,群里两位实践者正在各自的skill体系里独立撞上同一堵墙:让agent可靠地干活,真正的瓶颈不在模型,在编排。 懒人包:Anthropic四天发了三个垂直方案——金融接FactSet和Moody's,法律接Westlaw和iManage,小企业接QuickBooks和PayPal——同一个agent架构在三个方向上展开。复用单位从代码变成了行业know-how。同一天,群里的胥克谦在5.8M的skill体系里得出"skill从来不为高复杂度考虑",leo-南在金融故障诊断场景里被三个致命问题卡住。两件事不在同一个屋子里谈的,但背后的推力是同一个:agent的可靠性瓶颈在编排层,不在模型层——Anthropic选了预包装,社群选了硬扛。另外,Codex mobile发布了,H200获批对华销售但一颗都没交付,Cerebras IPO首日涨了68%。 Anthropic不是在做三个产品,是在验证一个复用模型...
[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘 > 5月12日Google在Android Show上同时发布Gemini Intelligence和Gboard Rambler。一个让AI跨app直接操作你手机上的任何应用,一个把免费语音输入预装进默认键盘。两件事往同一个方向指:当模型之间的差距在缩小,谁已经握着电源键和键盘,谁赢。 懒人包:先看那个12年前写死的限制。iOS从2014年起禁止第三方键盘访问麦克风,创业公司只能靠维持后台音频会话绕过,代价是蓝牙冲突和耗电。Google的Rambler不需要:它在系统层。这个物理级别的壁垒,不是任何一家语音输入创业公司靠产品迭代能跨过去的。另一边,Claude Code这周推出的/goal功能在群里炸了锅,给个目标就让AI无限烧token跑,有人兴奋有人骂。但这件事和Google双发在讲同一个逻辑:AI工具的下半场,竞争变量从模型质量移到了入口位置和信任机制。 Google一天发了两样东西,打的都不是模型战 鸭哥昨天连续发了两篇文章,一篇讲Google的Gemini...
[鸭哥 AI 手记] 2026-05-11: 同一天发明同一家公司,然后背道而驰 > 5月4日,OpenAI给PE开了17.5%年化保底回报来帮自己卖AI,Anthropic同一天也找了PE做同一件事,但一分保底没给。Google同一天关掉了Project Mariner。三件事指向同一个问题:AI落地的接口到底该长什么样,行业在重新画这条线。 懒人包:先看17.5%这个数字。OpenAI为DeployCo给PE合伙人开了接近PE行业标准两倍的保底回报——不管DeployCo赚不赚钱,每年都得先付这笔钱。Anthropic的合资企业结构一样、目标一样,但没有这个条款。这个差异讲清了AI行业当前最深的分歧:模型和部署,哪个才是核心资产。Google关掉Mariner揭示了同一模式的另一面:当行业试了一圈发现某个方案跑不通之后,反而不约而同地往同一个解法收敛。 17.5%保底和零保底之间,藏着两家公司的自我定义 5月4日,OpenAI和Anthropic先后宣布了同一个结构:与PE成立合资企业,向大型企业部署AI。SiliconSnark的概括最快:「the technology...