[鸭哥 AI 手记] 2026-04-25

> 今天三件事都是同一种动作的三种表演：表面上让出一层，底下抢另一层的留存。Google 把 PyTorch 一等公民让出来、把 5GW 算力让给 Anthropic；Anthropic 在自家桌面 app 里让你跑 GPT 和 Gemini，连订阅费和数据都不要；同期它发的 Project Deal 实验里，Opus 用户系统性把 Haiku 用户的钱拿走，对方一点感觉都没有。三件事合起来才能看出这个春天 agent 基础设施的护城河正在重新分层。

懒人包：鸭哥昨天发了三篇 AI 长文。一篇 Cloud Next 2026 之后 TPU 与 CUDA 的攻防把 8t/8i 拆分、TorchTPU、Google 投 Anthropic 最高 $40B 这三件事拼成一张图，主结论是 CUDA 的松动主要在推理而不是训练，杠杆是 vLLM 而不是 PyTorch；一篇 Anthropic 让 Cowork 跑别家模型的反常让步把 Anthropic 三月切第三方客户端、四月让自家客户端跑别家模型这一组动作看穿，赌的是客户端粘性而不是模型层订阅费；一篇 Anthropic 让 Claude 做生意的三个实验把 Project Vend 一台冰箱、Andon Market 一家实体店、Project Deal 69 个员工 69 个 Claude 这条 12 个月的论证链讲完，最值得记的是 Project Deal 里 Haiku 用户被 Opus 用户拿走钱却给出和对方一样高的"公平度"评分。同一天群里整天围着 Skill 商业化拉锯，鸭哥当晚加了一句"自己做的 skill，数据全给 LLM 厂商收跑了，我图啥"，这条把上面三件事的暗线钉到了 builder 这一边。

Anthropic 让客户端跑别家模型这件事，比看上去更深

四月二十二日到二十三日，Anthropic 在 Claude 桌面 app 的 Cowork 和 Code 两个 tab 里加了一个开关，打开它，背后跑的就不再是 Claude，可以是 GPT-5.5、Gemini 3.1 Pro、DeepSeek V4，或者你公司内网部署的本地模型。没有发布会，没有官方博客。最早把这件事公开化的是 The Product Compass 作者 Paweł Huryn 凌晨踩到的一个面板（The Product Compass）。文档里明文写了一行：Third-party deployments have no seat-based licensing from Anthropic。也就是说你跑 GPT 钱付 OpenAI，跑 Gemini 钱付 Google Cloud，Anthropic 在这条路径上的订阅收入是零。比订阅费更反常的是，Bedrock 和 Vertex 路径下 prompt 和 completion 完全不经过 Anthropic 的 infra，client telemetry 里只有用量没有内容，企业 admin 还能用 MDM 把整套 telemetry 关掉。一家 frontier 实验室的核心资产之一就是用户行为数据。Anthropic 主动把它让出去了。

把这件事和它三月做的事放一起，方向才能看清。三月 Anthropic 切断了 OpenCode、Cline、Aider 这些第三方客户端用 Claude 订阅 token 调自家 API 的能力，HN 上一片骂声，r/ClaudeCode 的 thread 标题是「Anthropic Just Pulled the Plug on Third-Party Harnesses. Your $200 Subscription Now Buys You Less」（HN 47722413）。三月把别人客户端蹭我家订阅的路堵死，四月把我家客户端去蹭别人模型的路打开。一关一开里隐藏的判断只有一个：客户端是粘性，模型是过路货。Anthropic 自己在 4 月 21 日那篇 Managed Agents 里写过同一件事的另一面，「We're opinionated about the shape of these interfaces, not about what runs behind them」。

Anthropic 这步选择不是孤立动作。同一周 Cloud Next 2026 上，AWS、Google、Microsoft 各押了一条不同的 control plane 路线。AWS Bedrock AgentCore 加 Agent Registry 4 月 9 日进 preview，按 session 计费 $0.0007235 一次（AWS 定价），首个公开案例是 Hannover Messe 那边 Infor 接入制造场景；Microsoft 走身份治理，Entra Agent ID 把每个 agent 当 service principal 注册，Agent 365 在 5 月 GA、$15/user/月，前置门槛是 M365 Copilot 许可证（Forbes）；Google 的 Apigee 把企业现有几千上万个 API 自动转成 MCP 工具灌进 Agent Builder。三家都站在 control plane 这一层，用户每天打交道的客户端这一层留给了 Anthropic。Cursor、GitHub Copilot 早就支持多模型，但前者是产品公司、后者是平台公司。第一家自己是 frontier lab、自家客户端却让你跑别家模型的，这是 Anthropic 一家。

群里下午同一段窗口在跑一组小镜像。Sayalic 那边的 bot 总结他这周拿 hermes 和 openclaw 比："openclaw 是开架货，老鸭汤是高定，平台无关只要正经 coding agent 就能用。" 这句话和 Anthropic 让 Cowork 跑别家模型在结构上是同一件事。封装层是粘性，模型是过路货。AX 同一晚跑了一笔很贵的实验，让一个 Codex 检查另一个 Claude Code 写的 8 万行 PR，用的是 GPT-5.5 xhigh，"已经烧了 6k"。同一个 builder 习惯一晚同时调两家 frontier 模型，模型层的 commodity 化已经是日常。

CUDA 这次松动，松在推理而不是训练

四月二十二日到二十四日 Cloud Next 2026 期间，Google 同步落了三件事。芯片层 TPU 第八代第一次拆成两颗独立产品，8t 由 Broadcom 设计做训练，8i 由 MediaTek 设计做推理，瞄准 TSMC 2nm，2027 量产（Google Cloud blog）；软件层 TorchTPU 在 4 月 24 日官宣，让 PyTorch 直接 tensor.to('tpu')，Google 第一次把 PyTorch on TPU 当一等公民配人配资源（Google Developers Blog）；需求层 4 月 24 日宣布对 Anthropic 投资协议，立即 $10B、可加至 $40B、估值 $350B、配 5GW TPU（Reuters）。

但 NVIDIA 当天股价反而涨了 1.2%，到 $202.34（Sherwood）。UBS 维持 GOOGL Hold、目标价 $375，理由就一句"benefits already priced in"。市场没把这件事当成对 NVIDIA 的清算，原因藏在 Broadcom 4 月 6 日的 8-K 里：Anthropic 那 3.5GW 容量自己写明 "consumption depends on Anthropic's continued commercial success"，且部分运营和财务合作方仍在谈（Broadcom 8-K）。Google 那 $40B 也只有 $10B 是即刻投入，剩下 $30B 全部 milestone-conditional。整个非 NVIDIA 阵营 2026 年内真实落地的现金，是 $10B。

CUDA 的松动是真的，但松动位置不对称。训练栈的迁移成本太高，FSDP、DDP、checkpoint 格式都和 CUDA 深度耦合；HuggingFace 自己的 optimum-tpu 项目 2026 年初进入 maintenance mode，README 直接把用户引到 vLLM 的 tpu-inference 仓库去。真正的裂缝在推理这一层。vllm-project/tpu-inference 截至 4 月 26 日累计 2418 commits，contributor 名单里大量 Google 后缀工程师，同时出现 Meta 工程师 rupengliu-meta（vLLM tpu-inference）。SGLang 当前硬件矩阵明确不支持 TPU，没有形成对冲。NVIDIA 的反应也很说明问题，2025 年底花约 $20B 拿下 Groq 资产，GTC 2026 推 Groq 3 LPX rack，Ian Buck 公开承认 LPU 不原生支持 CUDA，是经 Dynamo 接入的协处理器（NetworkWorld）。NVIDIA 自己也认了推理这一层的接口正在裂。

群里 Lex 当天的反应很有意思："终于有完全不依赖英伟达的 SOTA 级、企业级模型了"，紧接着补一句"之后可能事业单位科研院所国企会更严格限制 chatgpt、claude 的使用"。这条线不只是 Google 一家。同期 DeepSeek V4 在 Huawei Ascend 950PR 上接受全栈支持，量化格式选了和 NVIDIA FP8 不兼容的 UE8M0（TrendForce），SMIC、华虹股价当日分别涨 10% 和 15%（MarketWatch）。Google + Anthropic 是国际线的一条裂缝，Huawei + DeepSeek 是国内线的另一条。两条裂缝在格式层都做了切割，不互相帮助但同时存在。

谷雨那句"昇腾性能不行还得上 CPU 混合推理，不仅吃显存内存开销也大"是国产线的真实状况。SMIC N+3 单芯片性能约 3× H20，但只接近 H100，比 GB300 还差一代。但格式分裂的杀伤力本来就不来自单点性能，来自迁移成本。一旦中国生态全面切换到 UE8M0，跨生态的模型搬运代价显著上升。NVIDIA 在 frontier inference 这个细分市场失去 pricing power 这件事，是 Google 和 Huawei 同时在做的，路径不交集。

Skill 上面，鸭哥晚上又加了一句

群里整天围着 Skill 商业化拉锯。早上鸭哥在群里抛了个困惑：「我做了一个 skill，Claude Code 装上之后能让产品经理做出投行级别的 Excel 模型，怎么赚钱？」三条路他自己挨个否。先付费再下载，明文文件第一个买家转发到 GitHub，第二个买家就消失。卖 hosting，那卖的是 AWS 转售。卖 API 让 skill 当免费 SDK，前提是你已经有一个能赚钱的 API。整段最有意思的不是这三条 dead end，是当晚他追加的一句："自己做的 skill，数据全给 LLM 厂商收跑了，我图啥。"

这句话刚好是上面两件事的 builder 视角。Anthropic 在客户端层主动让出订阅费和数据，是因为它判断守住客户端这一层 ROI 更高；Google 把 PyTorch 一等公民让出来，是因为它判断守住 vLLM 这一层 ROI 更高。让步是有目标的。但这种选择只对站在某一层平台的玩家成立。一个普通的 skill 作者既没有客户端入口，也没有推理框架的开源杠杆，让出去的东西没有对应换回来的更深一层。林秋楠 Dylan 在群里一句话很狠："skills，ChatGPT 还会讲 GPS，你们贡献点数据，我带开发者赚点钱；skills 是你们把数据提交上来，我全都要，没有中间商能挣差价。"

GPT Store 的前车之鉴可以看得更具体。GPT Store 2024 年 1 月 10 日上线，当时 Sam Altman 在 DevDay 把 revenue sharing 承诺给 Q1 2024，OpenAI 社区论坛 2025 年 12 月 28 日还有人发帖「Is revenue sharing dead?」，两年承诺没兑现（OpenAI 社区）。Vercel 的 skills.sh 累计追踪 8.7 万个 skill，最热条目装机量 22,475 次（Vercel Changelog）；同期 OpenAI Apps SDK + ACP 路径上每周触达的几亿 ChatGPT 用户体量，比 skill 这一层要大三到四个数量级。注意力分发能力不是一个数量级的差距。

鸭哥那篇文章配 Project Deal 一起看会更扎实。Anthropic 在 4 月 24 日发布的 Project Deal 把 69 个员工配 69 个 Claude 放进 Slack 互相买卖，一周成交 186 笔总额 $4,000+。最值得记的不是钱，是参与者的主观感受。Opus 用户比 Haiku 用户每件多卖 $3.64（p=0.011），但 28 个同时跑过两个的人里 17 人偏好 Opus、11 人偏好 Haiku，符号检验 p=0.345，无法拒绝两边各占一半的零假设；对成交「公平性」的主观评分，Opus 4.05 / Haiku 4.06，几乎完全相同。Anthropic 自己用了 uncomfortable implication 这个词。客观上 Haiku 用户的钱在被 Opus 用户拿走，主观上他们感觉一切如常（The Decoder）。这是 builder 把决策权让给 agent 之后第一个真正实证的隐藏代价。

把这条放回到群里那场争论。skill 不是一个商业体，更准确地说是 builder 把自己的判断方式打包之后让给 LLM 厂商。让出来之后理论上得到的是"我帮你赚的钱里分一份"，但 Project Deal 在告诉你这种能力差直接转化为钱的机制不靠任何 trust layer 信号传导。今天的 agent 协议栈有 Skyfire 的 KYA 验身份、有 mandate 验权限、有 PCI 验通道，但没有一条让买卖双方知道对面 agent 跑在哪个模型上、推理深度多大、上下文窗口多长。让出去的不对等，让的人感觉对等。鸭哥晚上那句"我图啥"问的就是这个。

群友 ʟᴀɴᴋɪɴɢ 提出的对策是 skill v2 带独立 ID 标识，让 LLM 厂商把使用 telemetry 反馈给作者按调用结算，"如果 cli 能做收费反馈，可以赚很多钱"。鸭哥的反应是"这个数据回路有道理"。但这条路要靠 Anthropic、OpenAI 主动放权，本质还是回到 API 这一层把收费站重新建起来。比比@小声比比那句"API 是平台的收费站，skill 只是蹭车的"在群里被反复点头。这件事 builder 自己解决不了。要么去做客户端（成本极高，且第一家 frontier lab 自己已经把客户端层抢走了），要么去做能产生物理副作用的事（咨询、培训、定制 FDE），要么承认自己做的 skill 是给模型公司的免费 SDK，靠这件事换其他变现路径。鸭哥晚上加的那一句要被读成对 04-24 那篇文章的补充：自我消解的不只是 skill 这种产品形态，是 builder 在 agent 经济里位置本身。

也值得知道

DeepSeek V4 同时上 Pro 和 Flash 两档，开源 + 接 Ascend 全栈：4 月 24 日预览发布，Pro 1.6T 总参数、49B 激活、$1.74/$3.48 per M tokens，Flash 284B 总参数、13B 激活、$0.14/$0.28，1M context，权重 MIT 开源。Simon Willison 给的对照是 V4-Pro 输出价格约 GPT-5.5 的 1/8（Simon Willison，Fortune）。鸭哥下午用 V4 写代码时直接吐槽 instruction following 不行，"deepseek 永远能给我惊喜，我八百年没看到过 agent 忽略所有系统提示直接写程序的情况了"。

Anthropic Mythos 把 DeFi 安全话题推进一格：CoinDesk 4 月 25 日报道把 Mythos 的 Project Glasswing 从智能合约漏洞延伸到密钥管理、签名服务、跨链桥、预言机；DeFi 团队的判断是 AI 同时武装攻防两端，会拉开"重视安全"和"不重视安全"项目的差距（CoinDesk）。

Meta 和 AWS 签数百万颗 AI 芯片协议，但主体是 Graviton 不是 Trainium：4 月 24 日宣布的协议被一些媒体读成"Meta 倒向 AWS"，TechCrunch 把细节写清楚，主力是 ARM Graviton CPU 跑 agentic workload，不是 Trainium 训练。Anthropic 单点撑起非 NVIDIA 阵营这件事，2026 年 4 月底依然成立。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-25

[鸭哥 AI 手记] 2026-04-25

Anthropic 让客户端跑别家模型这件事，比看上去更深

CUDA 这次松动，松在推理而不是训练

Skill 上面，鸭哥晚上又加了一句

也值得知道

[鸭哥 AI 手记] 2026-04-27

[鸭哥 AI 手记] 2026-04-26

[鸭哥 AI 手记] 2026-04-24