[鸭哥 AI 手记] 2026-05-10: Agentforce 800M、专利里的思考标注、agentOS 雏形

> Salesforce 二月份披露 Agentforce ARR 已经 8 亿美元，配套数据是上季度交付了 24 亿个 agentic work units、处理了 19 万亿 token；同一天群里六个小时在吵软件是不是死了。鸭哥昨晚把 Anthropic 的 Computer Use 专利读完，发现真正卖钱的是把"用户为什么这么点"也存进训练样本里。三件事都在重新画 AI 产品的最小交付单元。

懒人包：先看 Salesforce 那个 800M ARR 怎么来的。Q4 FY26 数据是 Agentforce ARR 8 亿美元、同比 +169%、累计 29,000 个 deals、24 亿 agentic work units、19 万亿 token，AWU 这个新计费单位已经在向 AWS 风格的消费量靠拢（InformationMatters）。鸭哥昨天发的 Computer Use 训练管线那篇从一项 2025 年 10 月授权的 Anthropic 专利切进去，最关键的一条是 Claim 5：允许用户在操作时附加思考标注，把"为什么这么点"写进训练样本。这件事和群里马工那一连串"软件已死，没有甲方需要纯软件了"的论断、以及 yousa 介绍的 Copilot --remote 4 月 13 日 public preview 和宋世康自称"第一代 agentOS 的软件开发者"，串起来是一件事：被装箱、被计量、被交付的最小单位正在被重画。

一项专利、一条 Claim 5、和 Salesforce 的 19 万亿 token

鸭哥昨晚发文的核心判断很直接，Computer Use 的护城河已经从模型本身移到了数据管线：怎么把"用户做了什么"变成"用户为什么这么做"。专利 U.S. 12,437,238（2025 年 10 月授权）拆成三层。截获层在用户和界面之间放一个中间层，记录每一步操作前后的截图和文本状态。翻译层用一个多模态 transformer 把"(342, 157) 点击"还原成"识别到文本为'提交'的按钮，在 (330, 150, 400, 170) 区域内执行点击"。合成层用更强的模型对每条样本做扩展，给定同一张操作前截图，生成几十条合理的后续动作变体。

群里家林的反应最准：「这个技术我尝试了好久都做不出来，原来是没有大量的数据。」LangSensei 接了一句更长的判断：「让 AI 使用工具是正道，现在大部分产品都是基于人设计的交互，让 AI 模拟人去操作能适配的产品最多。」这两句合起来是市场层面的回答，专利文本里 Claim 5 是工程层面的回答：用户可以在操作时附加思考标注，例如「我点这个按钮是因为它通常在右下角」「这个地方应该选第三个选项，因为前两个是灰色的」。这条 Claim 把人脑里的隐式推理写进训练数据。

学术圈有数据，量也不小。微软 GUI-360 有 120 万条轨迹，OSWorld、ScreenAgent、Android-in-the-Wild 一起做出几百万张带语义的截图。问题不在量，在于这些数据集只能告诉模型"用户做了什么"，告诉不了"用户为什么这么做"。Anthropic 在做的事情，是把行为数据升级成推理数据。这一年第三方独立测的 Computer Use Agent benchmark，IBM CUGA 在 WebOperator 上 61.7、Narada 64.2、DeepSky 66.9（OpAgent 论文），所有人卡在 50-70% 这一带，模型差距已经不是产品差距的主因。

把这条 Claim 5 接到 Salesforce Q4 FY26 数据上一起看会更有意思。Salesforce 报了 24 亿 agentic work units、19 万亿 token，5 倍同比增长。SaaS 巨头每多跑一个工单，就多一份"业务员在这个上下文下做了什么"的记录。如果再让用户加一行"为什么"，每条工单就是一条带推理链的训练样本。Anthropic 那条管线把单用户的操作数据变成推理数据，Salesforce 那条管线把整条 enterprise workflow 变成推理数据。两条曲线最终会汇到同一个位置：训练数据从外部采购，转向产品运行时自己生成。这也是群里马工那句"没有甲方需要纯软件了"显得突兀但又有道理的原因。

软件死没死、CC 那 51 万行代码、和马工胥克谦那场拉锯

下午群里那场拉锯持续了大概六个小时。起点是马工一句话：「软件工程可能还活着，但是软件已经死了。没有甲方需要纯软件了，大家都要智能体。」胥克谦马上拿 Claude Code 反驳：「再说一次，cc 是 51 万行代码，是代码。」马工升一级：「软件功能是确定的，有 scope，而 agent 的能力没有 scope 限制。」胡达的折中说法比较有意思：「Agent 是空气层，会变得无处不在；传统软件的皮被拔掉，剩下的中后台部份还需要一定的稳定性。」鸭哥贴出他自己的旧文《超越 DRY：AI 原生软件工程的思考》收尾：「过去一年五篇文章写的是不同侧面的同一个问题。」

抽象层吵起来很难分胜负。把 Salesforce 数据贴上来，分歧立刻收敛。Q4 FY26 Agentforce ARR 8 亿美元、同比 +169%、29,000 个 deals 已签（Yahoo Finance）。Q1 数据更刺眼：8,000 个 deals 已签、800 个进入 production，也就是签约率高得吓人，实际上线率只有 10%。同一周 ServiceNow 公布 2026 年 YTD 股价跌 40%，是所有美股大型企业软件公司里最差。SAP T1 2026 Cloud +27%，Joule 平台已部署 40+ agents、2500 个 skills。Adobe -31%。同一个赛道里，加速建 agent 层的公司在涨，没加速的在跌。

胥克谦说 CC 是 51 万行代码这件事仍然是对的。马工说软件没人买了这件事也是对的。两个判断分别针对的是同一个产品的两个层次。51 万行代码在交付端还是底层的发动机，但市场上能签约的不再是发动机本身，而是发动机加上一层"听用户讲业务话、自己跑完"的封装。鸭哥引用的 AI 原生软件工程那篇文章里把这种新交付物称为「生成内核」：核心套件加指导性知识加杠杆工具。Salesforce 的 Agentforce 就是这种生成内核的早期形态，AWU 这个新计费单位则是它的消费量度。

如果连标准品都开始按 AWU 计费，下一步真正变化的是 SaaS 销售这件事的最小报价单元。从 per seat 到 per task 到 per outcome 这种转变现在还没数据可看，但 Salesforce 在 the SaaS CFO 那篇 framework 文章里被认为是第一家给资本市场提供 AWU 报告的公司。Marc Benioff 那句「Agentic AI is a tailwind for our business」，看 Q1 FY26 production 率 10% 这个数字就会清醒：tailwind 是真的，帆还没撑开。

CLI 旁边正在多出一层新的 OS

晚上群里换了一拨人聊 CLI 远程会话。yousa 把 Copilot --remote 4 月 13 日 public preview 介绍得很完整：本地 CLI 跑长任务，会话活动实时流到 GitHub，手机或网页可以接管。Trae 做了类似的事，Codex 也在做。LangSensei 接了一句：「我现在在研究 agent 版的 npm。每个 agent 是一个独立自洽的，安装好之后就能直接给他任务跑。」宋世康干脆自称「第一代 agentOS 的软件开发者」，把 OS 应该提供的能力列了一遍：session spawn、gateway、prompt 定制、tools 注册、inter-session A2A。

DevOps Journal 5 月 1 号那篇 Copilot extension governance 把 GitHub 这条战线讲得比群里更细：Copilot CLI plugin marketplace、Agent Package Manager (APM)、gh skill 子命令、MCP servers across editors。同一周 OpenAI 把 Symphony 开源出来作为 Codex agent 编排规范（Tessl blog）。HKUDS 那个 CLI-Anything 项目把所有 SKILL.md 统一到顶层 skills/，已经在用 npx skills add HKUDS/CLI-Anything --skill 的安装语法。

群里 cxuanAI 写了个小工具 codex-usage 算 Codex Pro 20x 的周额度，得出每周 $2000-$2200 的 token 价值。这个数字说明 CLI 正在被当成一种带定价的资源单位看。每周 $2000 在工具品类里偏高，更接近带 SLA 的算力服务的价格。GitHub 4 月 30 号 Copilot CLI macOS release 这种节奏放进来一起看，每两周一个版本，比传统 IDE 更新得快得多。

Rodriguez 在群里那句话最朴素：「harness 泛化到 agentos 其实挺自然的，llm 必然会约束到一个边界上跟 harness 划清各自负责的范围。」如果 agentOS 这个分层真的稳定下来，护城河会回到两类东西。第一类是被 harness 持续生成的私有运行数据，对应的就是 Anthropic 那条专利管线的市场化版本。第二类是平台层的注册表和分发渠道，对应的就是 GitHub APM 和 OpenAI Symphony 想拿下的位置。鸭哥那句「过去一年五篇文章写的是不同侧面的同一个问题」放在这里就成立了，三个话题三条曲线指向同一件事，下一轮的资产沉淀在运行时的数据和分发层，标准品本身越来越像消耗品。

也值得知道

OpenAI 完成 1220 亿美元融资轮：post-money 估值 8520 亿美元，是史上最大的一次私募融资，CFO Sarah Friar 确认 IPO 时会预留一部分股份给散户。（Fladgate AI Round-Up）

白宫考虑发布前测试 frontier model：5 月 4 日 NYT 报道，Google、Microsoft、xAI 同意在公开发布前让 NIST 测试自家模型，触发点是 Anthropic 的 Claude Mythos。这是 Trump 政府第一次主动加 AI 监管动作。（The Hill、CSO Online）

Anthropic 4 月推出 Managed Agents：按 session-hour 计费，$0.08 一小时。这种计费方式和 Agentforce 的 AWU 形成镜像，一个按上层产品计价，一个按底层会话计价。（Opus.pro April 2026 roundup）

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-10: Agentforce 800M、专利里的思考标注、agentOS 雏形

[鸭哥 AI 手记] 2026-05-10: Agentforce 800M、专利里的思考标注、agentOS 雏形

一项专利、一条 Claim 5、和 Salesforce 的 19 万亿 token

软件死没死、CC 那 51 万行代码、和马工胥克谦那场拉锯

CLI 旁边正在多出一层新的 OS

也值得知道

[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘

[鸭哥 AI 手记] 2026-05-11: 同一天发明同一家公司，然后背道而驰

[鸭哥 AI 手记] 2026-05-09: DeepSeek 没说的、HTML 没证的、TDD 没测的