[鸭哥 AI 手记] 2026-04-24

> 当执行变得免费，价值会往哪里搬。这是今天三件事共同回答的问题：Skill 卖不出钱、四家 frontier 模型在不同任务上各占一段、PM 的工作核心从前置判断挪到回路速度。表面是三个独立话题，底下是同一张迁徙图。

懒人包：鸭哥昨天发了三篇 AI 长文，一篇说 Skill 是天生带自杀基因的产品，把价值创造和价值捕获被分开这件事讲穿；一篇 GPT-5.5 / Opus 4.7 / DeepSeek V4 派发指南讲清楚为什么 2026 年春没有任何一个模型能在所有任务里做到最优；一篇从 Cat Wu 访谈看 PM 的职业道路讨论工程执行变便宜以后 PM 该往哪里走。同一天 DeepSeek V4 周五发布、Google 宣布再投 Anthropic 400 亿美元、Anthropic 公开 Claude Code 一个月质量滑坡的 postmortem，三件外部事件正好分别落到这三篇文章的论证线里。

Skill 没有卖钱的位置，因为执行不发生在你这里

群里下午开了一场关于 Skill 商业化的长辩论。马工昨天那篇 Agent Skill 商业化三角不可能定理在群里被反复引用，林秋楠直接说：skills 没有商业模式，gpts 打底还能讲 App stores 的故事。多喝热水补了一刀：围绕 skills 来做商业化就有点本末倒置了。金松不同意，提出一条 skill + 私有数据 + 区块链 + 按次结算的专家资产化路径。杨攀来自硅基流动，他给出的说法最直接：skill 没有能力价值，发布 1 到 3 个月之后就被训练到模型里了。

这场争论真正卡住的不是商业模式选项不够多，而是更基本的一件事。skill 的价值发生在用户自己的 LLM 调用里，这个时刻里没有任何位置可以设置一个收费点。鸭哥昨天文章把这件事拆成三层：直接挂出来卖，被零成本传播打死；做托管服务，本质是 hosting 不是 skill；当成 API 引流物料，前提是你已经有一个能赚钱的 API。三条路走完，skill 这种形态本身无法独立承载一个商业实体。

更尖锐的版本在数据飞轮一层。SaaS 时代免费产品总是另一种形式的生意，因为 Google 搜索、Facebook 信息流、Stripe 反欺诈都是靠每次调用回流的数据建起壁垒的。skill 把这条路也切了。用户用你的 skill 跑出来的所有交互，全部进了 Anthropic 或 OpenAI 的日志，跟 skill 作者没关系。乙方拿不到数据，付钱的甲方也保不住数据，唯一的赢家是从来没参与这桩生意的模型公司。

这件事的反例正好今天发生了。Anthropic 三月初推出的 Claude Marketplace 现在装的是 Snowflake、GitLab、Replit、Harvey 这些第三方 SaaS 应用，不是 skill 文件。Anthropic 自己不收佣金，只把这些 SaaS 的账单合并到企业用户已有的 Anthropic 合同里。读起来像在做善事，实际上是把所有第三方应用的 token 消耗装进自己的承诺合同池子，反向催更多 API 调用。这恰好印证了昨天那篇文章的判断：当 access control 失效，赚钱的位置一定不在 artifact 上，而在它能驱动多少底层 token 消耗、能 lock 住多少长期合同。skill 是这条结构里最被边缘化的那一层，连 SaaS 都不算。

群友 IQ75 在 skill.sh 上搜了一圈，结论很冷酷：大多数是工具属性，少数具备流程属性，平台属性的 skill 目前未见。做不到平台层级的业务，就没有数据沉淀，就不会有业务壁垒，就不会有付费的可能。这跟杨攀的判断隔群同向：skill 当下真正的功能是把人类对怎么用一个 AI 的隐性知识显式化，喂给下一代模型作为高质量训练数据。它在分发上有价值，在商业上没有。

没有一个模型能赚走所有任务的钱

DeepSeek V4 在周五官宣发布，1.6 万亿总参 49 亿激活、1M 上下文、V4-Pro 输出 $3.48/M、V4-Flash 输出 $0.28/M、推理在昇腾 950 supernode 上做了原生优化。鸭哥下午就用上了，一边写代码一边在群里报账单：写了三份报告，做了 3 个 PR，删了一个网站，80 块。群友 AX 在 OpenClaw 里跑长任务直接被 reasoning_content must be passed back 卡死。鸭哥试了写作，结论是 DeepSeek 写作像在碰运气。instruction following 不行，prompt 没法 steer 它的行为，他直接说这是个 deal breaker。

V4 的真正信号其实不在它便宜。鸭哥昨天那篇模型派发文章讲清楚的是：V4 在 LiveCodeBench 93.5、Codeforces 3206 Elo、Chinese-SimpleQA 84.4 这些短任务、可验证答案的位置上是市场第一，但在 Terminal-Bench 2.0 长 horizon agentic 上 67.9% 比 GPT-5.5 的 82.7% 差 15 个百分点，SWE-Bench Pro 55.4% 比 Opus 4.7 的 64.3% 差 9 个百分点。同一个模型同时是某些任务的市场第一和某些任务的市场第三，这件事 2024 年的 GPT-4 时代是不存在的。

群里 2336 实测有一段补强了这个判断：5.4 弄的整套，说啥都秒懂，5.5 有点接不住，他在到处乱撞。可能还需要磨合吧。AX 也吐槽 GPT-5.5 在 Codex 里的 1M context 拿不到，他猜是为了省钱，因为 5.5 烧算力、codex 是补贴产品。同一天 Anthropic 公开了 4 月 23 日的 postmortem，承认从 3 月 4 号起把 Claude Code 默认 reasoning effort 从 high 调到 medium、加上系统 prompt bug 和 stale session 处理上的回归，造成了一个月的质量滑坡，到 4 月 20 日 v2.1.116 才完整修好。这些细节合起来揭示的是同一件事：模型公司每过几周就在动产品里的某个隐藏开关。一个生产系统如果绑死在一家身上，每次这种隐藏开关被动一下，你的生产质量就直接下台阶。

这条结论延伸出一个不那么直观的推论：每家模型公司都在主动收窄自己的强项。Anthropic 把 Opus 4.7 推成资深代码工程师定位，1M needle-in-haystack 从 4.6 的 91.9% 退到 59.2%，主动把 retrieval 容量换给 agentic 推理；OpenAI 把 GPT-5.5 的 OSWorld 78.7% 锁在 macOS Codex 桌面应用里，欧盟英国都拿不到；Google 押多模态和性价比，AA-Omniscience hallucination rate 88% 是市场倒数；DeepSeek 走开源加 1/9 到 1/30 价格，但合规上意大利、台湾、澳大利亚、韩国都已禁用，金融医疗政府场景过不去 audit。每家都在切自己最赚钱的一块任务市场，主动把自己变窄。

群里的反应比这套结论更具体。鸭哥说自己是老鸭汤受益者，因为他用同一个 context infrastructure 切换不同模型：写作用 Claude，长任务用 codex，开源便宜的脏活给 V4。AX 说 ant 和 oai 订阅太便宜了，1/30 到 1/40，usage 拉满基本白送了。能这样烧是因为这些公司都在用补贴抢明天的任务路由权。Google 同一天宣布的 400 亿美元加注 Anthropic，10 亿现金按 3500 亿估值入资、30 亿按业绩里程碑追加、外加 5GW TPU 算力承诺，说明云厂商也认准这件事：单模型独占的故事讲不通了，押的是不同模型在不同任务上各赚一段的格局会持续好几年。

PM 的工作核心从想对一次挪到学得快一些

鸭哥昨天那篇 PM 文章在群里收到一条很重的反驳。Sayalic 直接说：整体聊了一个很细枝末节的问题。淘宝看了 10 年用户反馈数据，也没迭代出拼多多。AI 怎么赋能公司战略到产品决策的具体取舍，这个话题价值远远大于加快迭代回路。这句话踩中了文章一个真实的 scope。

鸭哥的回应比文章本身更值得展开。他承认决策智能比工具智能更重要，但补了一个落地次序的判断：世界上绝大部分人不理解决策智能这件事，所以更直接的方式是先把工具智能落地，在这个基础上再想决策智能的事情。决策智能 work 的前提是 context 密度要达到一个阈值，这件事在大部分企业里很难推下去。一句话讲：决策智能在天花板，工具智能在地基，跳级喊决策智能没用，得一层层往上铺。

回到文章本身。Cat Wu 在 Lenny's Podcast 4 月 23 日那期给的关键数据点是：Claude Code 团队的功能交付周期从 6 个月压到 1 个月，有些 1 周，少数 1 天就放出去；专门有一块叫 concept corner 的实验区，工程师有想法当周就能送到用户手里。Cat Wu 自己也说他们 release 不再是终点，是观察工具。把功能贴上 research preview 标签放出去，用户自己就理解这是早期判断。这个标签换的是产品和用户之间的默认契约，把传统 GA 上来就背的稳定性承诺一刀切掉。

群里 Wendy（美团）的反应直接落到组织设计上：像是大厂里建立一支支创业小队。这句话比文章更直白。当工程执行成本下来一个数量级，团队的最小可行单位会随之缩到 1 到 3 人，一个能定义目标、能写代码、能看数据的复合人，比 5 人 PRD/设计/前端/后端/QA 切得清清楚楚的传统配置更适配新的回路速度。这是为什么 Cat Wu 在访谈里讲 Anthropic 还有 30 到 40 个 PM，但 PM 的工作面在迁移：原来的需求收集、跨团队协调、PRD 写作仍然存在，但 PM 价值的核心载体不再是这些动作，而是怎么定义目标用户、什么样的失败可以接受、用户反馈怎么进入团队、实验跑完谁来判断是不是真的学到了东西。

把这件事放回到 Sayalic 的批评下读：决策智能确实是天花板，但它不会在 PM 这个 title 里突然冒出来。它是在 PM 把工具智能层做到位、回路足够快、context 密度足够高之后，慢慢在团队里浮出来的判断品味。Cat Wu 讲的 product taste 的核心是成本判断，就是这个意思。一个改动到底是 1 小时做掉算了，还是会牵动权限、计费、企业安全和数据迁移这种长期资产，这种判断只有在你足够多次跑过完整回路之后才长得出来。今天的 PM 没法跳过工具智能直接做决策智能，因为决策智能的训练数据就是工具智能跑出来的真实反馈。

也值得知道

Google 加注 Anthropic 400 亿美元：4 月 24 日宣布，10 亿美元现金按 3500 亿估值即刻入资，剩下 30 亿按业绩里程碑追加，外加 5 年 5GW 的 TPU 算力承诺。一个细节：Google Cloud 现在从 Anthropic API 上赚的钱比从自家 Gemini 上还多，这是 Google 愿意继续加码的真实理由。

DeepSeek V4 的国产推理优化：Reuters 报道 DeepSeek 明确说 V4-Pro 在昇腾 950 supernode 上规模化部署后价格还会再降。海思团队的庄佳威在群里证实推理代码已开源、finetune 代码部分开放，他自己团队在做对标 CuTile 的简洁编程抽象绕开 CUDA 壁垒。训练这一层暂时没有公开说清楚是不是用国产卡。

Anthropic 公开 Claude Code 一个月质量滑坡 postmortem：4 月 23 日发布的事故分析承认三处独立回归：默认 reasoning effort 从 high 调到 medium、超过 1 小时的 stale session 把 thinking 删掉、系统 prompt 在某些场景下生成坏 coding 输出。问题从 3 月 4 日开始累积，到 4 月 20 日 v2.1.116 才完全修好。当天给所有订阅用户重置了 usage limits 作为补偿。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-24

[鸭哥 AI 手记] 2026-04-24

Skill 没有卖钱的位置，因为执行不发生在你这里

没有一个模型能赚走所有任务的钱

PM 的工作核心从想对一次挪到学得快一些

也值得知道

[鸭哥 AI 手记] 2026-04-23

[鸭哥 AI 手记] 2026-04-22

[鸭哥 AI 手记] 2026-04-21