[鸭哥 AI 手记] 2026-05-10: Agentforce 800M、专利里的思考标注、agentOS 雏形


[鸭哥 AI 手记] 2026-05-10: Agentforce 800M、专利里的思考标注、agentOS 雏形

> Salesforce 二月份披露 Agentforce ARR 已经 8 亿美元,配套数据是上季度交付了 24 亿个 agentic work units、处理了 19 万亿 token;同一天群里六个小时在吵软件是不是死了。鸭哥昨晚把 Anthropic 的 Computer Use 专利读完,发现真正卖钱的是把"用户为什么这么点"也存进训练样本里。三件事都在重新画 AI 产品的最小交付单元。

懒人包:先看 Salesforce 那个 800M ARR 怎么来的。Q4 FY26 数据是 Agentforce ARR 8 亿美元、同比 +169%、累计 29,000 个 deals、24 亿 agentic work units、19 万亿 token,AWU 这个新计费单位已经在向 AWS 风格的消费量靠拢(InformationMatters)。鸭哥昨天发的 Computer Use 训练管线那篇从一项 2025 年 10 月授权的 Anthropic 专利切进去,最关键的一条是 Claim 5:允许用户在操作时附加思考标注,把"为什么这么点"写进训练样本。这件事和群里马工那一连串"软件已死,没有甲方需要纯软件了"的论断、以及 yousa 介绍的 Copilot --remote 4 月 13 日 public preview 和宋世康自称"第一代 agentOS 的软件开发者",串起来是一件事:被装箱、被计量、被交付的最小单位正在被重画。

一项专利、一条 Claim 5、和 Salesforce 的 19 万亿 token

鸭哥昨晚发文的核心判断很直接,Computer Use 的护城河已经从模型本身移到了数据管线:怎么把"用户做了什么"变成"用户为什么这么做"。专利 U.S. 12,437,238(2025 年 10 月授权)拆成三层。截获层在用户和界面之间放一个中间层,记录每一步操作前后的截图和文本状态。翻译层用一个多模态 transformer 把"(342, 157) 点击"还原成"识别到文本为'提交'的按钮,在 (330, 150, 400, 170) 区域内执行点击"。合成层用更强的模型对每条样本做扩展,给定同一张操作前截图,生成几十条合理的后续动作变体。

群里家林的反应最准:「这个技术我尝试了好久都做不出来,原来是没有大量的数据。」LangSensei 接了一句更长的判断:「让 AI 使用工具是正道,现在大部分产品都是基于人设计的交互,让 AI 模拟人去操作能适配的产品最多。」这两句合起来是市场层面的回答,专利文本里 Claim 5 是工程层面的回答:用户可以在操作时附加思考标注,例如「我点这个按钮是因为它通常在右下角」「这个地方应该选第三个选项,因为前两个是灰色的」。这条 Claim 把人脑里的隐式推理写进训练数据。

学术圈有数据,量也不小。微软 GUI-360 有 120 万条轨迹,OSWorld、ScreenAgent、Android-in-the-Wild 一起做出几百万张带语义的截图。问题不在量,在于这些数据集只能告诉模型"用户做了什么",告诉不了"用户为什么这么做"。Anthropic 在做的事情,是把行为数据升级成推理数据。这一年第三方独立测的 Computer Use Agent benchmark,IBM CUGA 在 WebOperator 上 61.7、Narada 64.2、DeepSky 66.9(OpAgent 论文),所有人卡在 50-70% 这一带,模型差距已经不是产品差距的主因。

把这条 Claim 5 接到 Salesforce Q4 FY26 数据上一起看会更有意思。Salesforce 报了 24 亿 agentic work units、19 万亿 token,5 倍同比增长。SaaS 巨头每多跑一个工单,就多一份"业务员在这个上下文下做了什么"的记录。如果再让用户加一行"为什么",每条工单就是一条带推理链的训练样本。Anthropic 那条管线把单用户的操作数据变成推理数据,Salesforce 那条管线把整条 enterprise workflow 变成推理数据。两条曲线最终会汇到同一个位置:训练数据从外部采购,转向产品运行时自己生成。这也是群里马工那句"没有甲方需要纯软件了"显得突兀但又有道理的原因。


软件死没死、CC 那 51 万行代码、和马工胥克谦那场拉锯

下午群里那场拉锯持续了大概六个小时。起点是马工一句话:「软件工程可能还活着,但是软件已经死了。没有甲方需要纯软件了,大家都要智能体。」胥克谦马上拿 Claude Code 反驳:「再说一次,cc 是 51 万行代码,是代码。」马工升一级:「软件功能是确定的,有 scope,而 agent 的能力没有 scope 限制。」胡达的折中说法比较有意思:「Agent 是空气层,会变得无处不在;传统软件的皮被拔掉,剩下的中后台部份还需要一定的稳定性。」鸭哥贴出他自己的旧文 《超越 DRY:AI 原生软件工程的思考》 收尾:「过去一年五篇文章写的是不同侧面的同一个问题。」

抽象层吵起来很难分胜负。把 Salesforce 数据贴上来,分歧立刻收敛。Q4 FY26 Agentforce ARR 8 亿美元、同比 +169%、29,000 个 deals 已签(Yahoo Finance)。Q1 数据更刺眼:8,000 个 deals 已签、800 个进入 production,也就是签约率高得吓人,实际上线率只有 10%。同一周 ServiceNow 公布 2026 年 YTD 股价跌 40%,是所有美股大型企业软件公司里最差。SAP T1 2026 Cloud +27%,Joule 平台已部署 40+ agents、2500 个 skills。Adobe -31%。同一个赛道里,加速建 agent 层的公司在涨,没加速的在跌。

胥克谦说 CC 是 51 万行代码这件事仍然是对的。马工说软件没人买了这件事也是对的。两个判断分别针对的是同一个产品的两个层次。51 万行代码在交付端还是底层的发动机,但市场上能签约的不再是发动机本身,而是发动机加上一层"听用户讲业务话、自己跑完"的封装。鸭哥引用的 AI 原生软件工程那篇文章 里把这种新交付物称为「生成内核」:核心套件加指导性知识加杠杆工具。Salesforce 的 Agentforce 就是这种生成内核的早期形态,AWU 这个新计费单位则是它的消费量度。

如果连标准品都开始按 AWU 计费,下一步真正变化的是 SaaS 销售这件事的最小报价单元。从 per seat 到 per task 到 per outcome 这种转变现在还没数据可看,但 Salesforce 在 the SaaS CFO 那篇 framework 文章 里被认为是第一家给资本市场提供 AWU 报告的公司。Marc Benioff 那句「Agentic AI is a tailwind for our business」,看 Q1 FY26 production 率 10% 这个数字就会清醒:tailwind 是真的,帆还没撑开。


CLI 旁边正在多出一层新的 OS

晚上群里换了一拨人聊 CLI 远程会话。yousa 把 Copilot --remote 4 月 13 日 public preview 介绍得很完整:本地 CLI 跑长任务,会话活动实时流到 GitHub,手机或网页可以接管。Trae 做了类似的事,Codex 也在做。LangSensei 接了一句:「我现在在研究 agent 版的 npm。每个 agent 是一个独立自洽的,安装好之后就能直接给他任务跑。」宋世康干脆自称「第一代 agentOS 的软件开发者」,把 OS 应该提供的能力列了一遍:session spawn、gateway、prompt 定制、tools 注册、inter-session A2A。

DevOps Journal 5 月 1 号那篇 Copilot extension governance 把 GitHub 这条战线讲得比群里更细:Copilot CLI plugin marketplace、Agent Package Manager (APM)、gh skill 子命令、MCP servers across editors。同一周 OpenAI 把 Symphony 开源出来作为 Codex agent 编排规范(Tessl blog)。HKUDS 那个 CLI-Anything 项目把所有 SKILL.md 统一到顶层 skills/,已经在用 npx skills add HKUDS/CLI-Anything --skill 的安装语法。

群里 cxuanAI 写了个小工具 codex-usage 算 Codex Pro 20x 的周额度,得出每周 $2000-$2200 的 token 价值。这个数字说明 CLI 正在被当成一种带定价的资源单位看。每周 $2000 在工具品类里偏高,更接近带 SLA 的算力服务的价格。GitHub 4 月 30 号 Copilot CLI macOS release 这种节奏放进来一起看,每两周一个版本,比传统 IDE 更新得快得多。

Rodriguez 在群里那句话最朴素:「harness 泛化到 agentos 其实挺自然的,llm 必然会约束到一个边界上跟 harness 划清各自负责的范围。」如果 agentOS 这个分层真的稳定下来,护城河会回到两类东西。第一类是被 harness 持续生成的私有运行数据,对应的就是 Anthropic 那条专利管线的市场化版本。第二类是平台层的注册表和分发渠道,对应的就是 GitHub APM 和 OpenAI Symphony 想拿下的位置。鸭哥那句「过去一年五篇文章写的是不同侧面的同一个问题」放在这里就成立了,三个话题三条曲线指向同一件事,下一轮的资产沉淀在运行时的数据和分发层,标准品本身越来越像消耗品。


也值得知道

OpenAI 完成 1220 亿美元融资轮:post-money 估值 8520 亿美元,是史上最大的一次私募融资,CFO Sarah Friar 确认 IPO 时会预留一部分股份给散户。(Fladgate AI Round-Up

白宫考虑发布前测试 frontier model:5 月 4 日 NYT 报道,Google、Microsoft、xAI 同意在公开发布前让 NIST 测试自家模型,触发点是 Anthropic 的 Claude Mythos。这是 Trump 政府第一次主动加 AI 监管动作。(The HillCSO Online

Anthropic 4 月推出 Managed Agents:按 session-hour 计费,$0.08 一小时。这种计费方式和 Agentforce 的 AWU 形成镜像,一个按上层产品计价,一个按底层会话计价。(Opus.pro April 2026 roundup


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘 > 5月12日Google在Android Show上同时发布Gemini Intelligence和Gboard Rambler。一个让AI跨app直接操作你手机上的任何应用,一个把免费语音输入预装进默认键盘。两件事往同一个方向指:当模型之间的差距在缩小,谁已经握着电源键和键盘,谁赢。 懒人包:先看那个12年前写死的限制。iOS从2014年起禁止第三方键盘访问麦克风,创业公司只能靠维持后台音频会话绕过,代价是蓝牙冲突和耗电。Google的Rambler不需要:它在系统层。这个物理级别的壁垒,不是任何一家语音输入创业公司靠产品迭代能跨过去的。另一边,Claude Code这周推出的/goal功能在群里炸了锅,给个目标就让AI无限烧token跑,有人兴奋有人骂。但这件事和Google双发在讲同一个逻辑:AI工具的下半场,竞争变量从模型质量移到了入口位置和信任机制。 Google一天发了两样东西,打的都不是模型战 鸭哥昨天连续发了两篇文章,一篇讲Google的Gemini...

[鸭哥 AI 手记] 2026-05-11: 同一天发明同一家公司,然后背道而驰 > 5月4日,OpenAI给PE开了17.5%年化保底回报来帮自己卖AI,Anthropic同一天也找了PE做同一件事,但一分保底没给。Google同一天关掉了Project Mariner。三件事指向同一个问题:AI落地的接口到底该长什么样,行业在重新画这条线。 懒人包:先看17.5%这个数字。OpenAI为DeployCo给PE合伙人开了接近PE行业标准两倍的保底回报——不管DeployCo赚不赚钱,每年都得先付这笔钱。Anthropic的合资企业结构一样、目标一样,但没有这个条款。这个差异讲清了AI行业当前最深的分歧:模型和部署,哪个才是核心资产。Google关掉Mariner揭示了同一模式的另一面:当行业试了一圈发现某个方案跑不通之后,反而不约而同地往同一个解法收敛。 17.5%保底和零保底之间,藏着两家公司的自我定义 5月4日,OpenAI和Anthropic先后宣布了同一个结构:与PE成立合资企业,向大型企业部署AI。SiliconSnark的概括最快:「the technology...

[鸭哥 AI 手记] 2026-05-09: DeepSeek 没说的、HTML 没证的、TDD 没测的 > 鸭哥今天在群里写下一句很冷的观察:DeepSeek 国运级模型那篇文章传得满天飞,但他在全网一直找不到一份 DeepSeek 自己关于 V4 用国产芯片训练的一手官方声明。同一天群里另两件事,是 Anthropic 工程师 Thariq 一句"HTML is the new markdown"在外面冲到 5M 阅读,群里却几乎一边倒说这是为了让你多烧 token 立的稻草人;还有鸭哥昨天那篇 TDD 文章发出来不到一天,圈内已经在讨论真正该测的根本不是 AI 写的代码路径,而是它输出之后的不变量。 懒人包:先看那条没找到的声明。鸭哥昨天看到彭超转的"中美 AI 正式分叉"这类文章后,自己去搜了一圈 DeepSeek 和华为的官方说法(南方都市报今天对彭超的采访同时登出,焦点是 Tokenmaxxing),结论是:Reuters 的措辞是 V4「adapted for Huawei chips」,MIT Technology Review...