[鸭哥 AI 手记] 2026-03-02


洗衣机让你洗更多衣服,AI 让你写更多代码。效率工具从来不减少工作量,它只改变瓶颈的位置。

懒人包:群友 yousa 用《More Work for Mother》的家务悖论类比 AI 编程,触发了一个关键问题:效率提升到底去哪了?数据显示瓶颈已经从写代码转移到了验证代码。与此同时,国产 AI 编程工具的定价权正在从模型方滑向基础设施方,智谱涨价 9 天后就被阿里云 7.9 元套餐截流。而 Claude 在登顶 App Store 的同一天全球宕机,完美诠释了什么叫”成功税”。

你的效率提升,被谁吃掉了?

群里 yousa 分享了一段让人不太舒服的历史。1983 年,历史学家 Ruth Schwartz Cowan 研究了一个反直觉的事实:美国家庭从 1920 年代到 1970 年代陆续买了洗衣机、吸尘器、微波炉,但家庭主妇每周做家务的时间几乎没有减少。原因很简单,有了洗衣机之后衣服从一周洗一次变成穿一次就洗,效率提升被更高的标准吃掉了。

yousa 紧接着说:”多像现在的 AI Coding 提升效率的事情。”

这不是随口一说。SonarSource 的 2026 开发者调查 给出了一个精确的数字:开发者每周花在”苦差事”上的时间稳定在 23% 到 25%,不管你是 AI 重度用户还是轻度用户。比例守恒了,但成分变了。以前的苦差事是手写样板代码,现在的苦差事是 review AI 生成的代码、追踪那些”几乎正确但不完全对”的 bug、处理体积暴增的 PR。

GitClear 分析了 2.11 亿行代码后发现,Moved code(重构性代码移动)从 25% 降到了不到 10%,Copy/Paste 代码首次超过了 Moved code,代码搅动率上升了 84%(GitClear Research)。群里张璞的观察一针见血:”代码量在增加,解释性注释在减少。重构在减少,复制粘贴在增加。AI 在帮你复制粘贴,不在帮你思考架构。”

为什么?因为瓶颈转移了。AI 加速了编码环节,但软件开发的瓶颈从来不只是编码。Faros AI 对 10,000+ 开发者的遥测数据显示,高 AI 采纳团队的 PR 合并数增长了 98%,但 PR 体积增长了 154%,评审时间增长了 91%。上游加速产生的增量,被下游的 review 瓶颈完全吞噬(yousa 原文)。

那正确的用法是什么?yousa 用了马士基的例子:2008 年金融危机后,马士基把航速从 24 节降到 18 节,单程慢了 20%,但省下的燃油用来部署更多船只,整个航运网络的吞吐量反而更大了。映射到编程:不要追求单个任务更快,而是通过并发做更多任务。鸭哥在群里提到的 Cursor subagent 就是这个思路的产品化。Cursor 2.4 引入了 subagent 架构,支持最多 8 个并行 agent 在独立的 git worktree 中同时工作。鸭哥的评价是”opus 老登写完文档,自主并行开几个 composer 1.5,做完了再自主 spot check 结果。快的一比。”

但鸭哥还说了一句更重要的话:”会用 AI 和不会用 AI 之间的效率差距,可能比用 AI 和不用 AI 之间的差距还要大。” METR 的对照实验印证了这个判断:2025 年数据显示 AI 让开发者慢了 19%,但 2026 年初的更新中,同一批开发者反转为快了 18%(METR)。工具没变多少,变的是人对工具的理解深度。洗衣机不是问题,问题是你用它来洗更多衣服,还是趁它洗衣服的时候去做以前做不到的事。


7.9 元的全家桶,和一个关于定价权的寓言

群里一场关于 AI 编程工具性价比的讨论,意外勾勒出了一幅行业权力迁移图。

若曦在几家国产平台之间反复切换:”百炼 coding plan 便宜量大但速度奇慢…kimi 性能可以但每周额度一两天能用完…白天晚上 kimi/minimax 两边切。” 鸭哥试了一圈后回到 Claude:”今天用了一下 sonnet,感觉还是比 opus 差不少。编程也许能代替,但大哥程度差远了。” AX 则在逆向工程 Claude Max plan 的 token 额度,结论是”max plan 比起 api 简直白送”。

表面上看,这只是消费者在货比三家。但往深一层看,一场结构性的定价权迁移正在发生。

故事的时间线是这样的:1 月 23 日,智谱 GLM Coding Plan 因需求火爆宣布限售,每日秒空。2 月 12 日,智谱发布 GLM-5 同日涨价 30%,取消首购优惠,打响国产大模型涨价第一枪。逻辑看起来很合理:模型更强了,供不应求,该让市场买单了。但仅仅 9 天后的 2 月 21 日,智谱就发了致歉信,承认算力扩容没跟上,Lite 用户根本用不上 GLM-5。4 天后的 2 月 25 日,阿里云百炼上线 Coding Plan,首月 7.9 元/月 打包了 GLM-5、Kimi K2.5、MiniMax M2.5、Qwen 3.5 四大开源模型。智谱涨价后单独卖 49 元的模型,被塞进了一个 7.9 元的”全家桶”里(虎嗅)。

这里暴露了一个行业级的结构性矛盾:当模型厂选择开源,定价权就自动交给了有算力的人。智谱涨价 30% 的前提是”我的模型好、供不应求、值这个价”。阿里云立刻证明了另一件事:你的模型确实好,好到我愿意放在我的货架上,用我的算力跑,卖得比你便宜还比你稳定。更深层的问题是,百炼的服务条款明确说使用期间的数据将用于”服务改进与模型优化”。低价获客、积累编程数据、强化自研模型、降低对第三方依赖,这个飞轮一旦转起来,才是对模型厂商真正的长期威胁。

鸭哥在群里点出了另一个维度:”agentic AI 的护城河不是 api wrapper,而在其他方面…现在回头看应该是 harness。” Cursor 的 agent harness 架构 就是这个思路的注脚:它不只是调用模型 API,而是把指令、工具、上下文管理编排成一个系统,为每个前沿模型做专门的调优。群里张璞从 Google 的角度补充了另一种护城河:”大厂已经拥有用户、拥有 platform,打通各个 app/surface 之间的壁垒,让用户体验更丝滑是大厂和平台的强项。”当模型性能趋同时,竞争的焦点就从”谁的模型更聪明”转向了”谁的编排层更好”和”谁的生态更粘”。


登顶 App Store 的同一天,Claude 宕机了

3 月 2 日这天对 Anthropic 来说大概是悲喜交加。

好消息是 Claude 登顶了 Apple 美国 App Store 免费榜第一名,把 ChatGPT 挤到第二(CNBC)。免费用户比 1 月增长了 60%,付费订阅者翻倍。坏消息是,就在同一天 11:30 UTC,Claude 全球宕机了。

群里的反应很直接。谷雨:”今儿早上四点起来去机场,想说正好踢几个任务,直接给我连不上,气的我睡觉去了。”黄一凯:”我今天怎么几百个断连。”鸭哥看了一下数据后说:”claude:98.92%,你就说有没有 2 个 9 吧。”

实际的可用性数据比鸭哥说的要好一点。Anthropic 官方状态页显示 claude.ai 过去 90 天的正常运行时间是 99.33%,API 是 99.52%。但即便是 99.33%,意味着每 30 天有大约 5 小时的不可用时间。对一个登顶 App Store 的消费应用来说可以接受,对一个被当成核心生产工具的编码 agent 来说,这是不够的。

Deployflow 的分析把这叫做”success tax”(Deployflow):当一个工具好到成为你工作流的核心依赖时,它的每一次宕机都不只是不便,而是生产事故。Anthropic 自己也承认原因是”过去一周对 Claude 的前所未有需求”(Mashable)。

这就引出一个更根本的问题。群里酒嘉年观察到一个有趣的模式:”能让 Agent 用得很爽的工具,反而都是那些很老派的设计:比如想要和 Agent 远程会话用邮件,想要让它帮我筛信息流,用 RSS 订阅。这些协议公开,一般能直接让命令行操作。越现代化的应用,GUI 一多反而模型都搞不定。” 这个观察的深层含义是:当你的工作流越依赖单一云服务时,那个服务就成了你的瓶颈。而老派的、去中心化的协议天然具备冗余性。群里若曦已经在实践这个策略:”白天晚上 kimi/minimax 两边切。”多 provider fallback 不再是奢侈品,而是基础设施必需品。


也值得知道

Qwen 3.5 小模型开源:阿里开源四款 Qwen3.5 小模型(0.8B/2B/4B/9B),0.8B 和 2B 为手机和边缘设备优化,可在 iPhone 上流畅运行。9B 版本性能接近百倍参数规模的大模型。(PanDaily

Claude 向免费用户开放记忆功能:Anthropic 同日推出记忆导入工具,用户可将 ChatGPT 或 Gemini 的记忆一键迁移到 Claude。抢用户抢得这么直白,还是头一回。(The Verge

Anthropic 指控三家中国实验室”蒸馏” Claude:DeepSeek、Moonshot AI、MiniMax 被指通过 2.4 万个虚假账号生成 1600 万次对话,从 Claude 提取能力。MiniMax 占 1300 万次。(Cybersecurity Infoservices


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

Block 砍掉 40% 的人,股价涨了 20%。学术研究却发现资深工程师用 AI 反而更慢。两件看似矛盾的事指向同一个结论。 懒人包:Block 的 Jack Dorsey 用”100人+AI=1000人”的逻辑裁掉四成员工,华尔街报以 20% 涨幅。同周群里鸭哥的 Opus 已能自主编排 agent、质检、发邮件汇报。但 METR 的随机对照实验发现资深开发者用 AI 反而慢了 19%,还自以为快了 20%。差距的根源不是 AI 的能力,而是人类能不能从”做事的人”变成”管理 AI 的人”。 Block 裁员 40% 背后的逻辑 2 月 27 日,Block 的 Jack Dorsey 宣布裁员约 4000 人,从 10000+ 减到不到 6000,接近 40%。致股东信写道:”智能工具已改变建造和运营公司的意义。一个显著更小的团队,使用我们正在构建的工具,可以做得更多、做得更好。”(AP News)这不是因经营困难裁员,Block 毛利润一直在增长。消息公布后股价暴涨超 20%(Forbes)。Dorsey 甚至在 X...

当 AI 的瓶颈从”能力不够”变成”数据到不了手边”,整个基础设施的逻辑都要重写。 懒人包:鸭哥的三层记忆系统从设计走向了可运行的 newsletter pipeline,关键不是记忆本身而是 sub-agent 的非轮询调度模式。陈然分享了一套数据驱动的 SEO/GEO 增长方法,核心洞察是 2-3 周的反馈延迟反而构成竞争壁垒。CC 压缩上下文时不保留项目理解只保留聊天记录,暴露了当前 AI 编程的一个结构性局限。 从三层记忆到可运行的系统 鸭哥之前聊过三层记忆的概念,今天第一次详细展开了实现。第一层是流水账:AI 做完每个操作,心得和可复用的东西一股脑 append 到文档末尾。第二层是每日复盘:另一个 AI 把流水账汇总,90% 直接扔掉,剩下 10% 按类别归档为可复用的领域知识。第三层是长期升华:每周或每月对反复出现的模式做反思,沉淀为价值观和偏好级别的长期记忆。鸭哥目前有 36 个领域见解文档,每个是一个长期稳定的观点。 当 AI 需要调用这些记忆时,用的是 progressive disclosure:通过主层 index...

用 AI 的第一步,不是学新东西,而是把旧习惯扔掉。 懒人包:真正用 AI IDE 写代码的人仅占 0.2%,大多数”AI 熟练用户”还在 ChatGPT 里考来考去。鸭哥的核心建议是”学 AI 首先要 unlearn”。另外鸭哥分享了 Endless Survey 系统设计,试图让 AI 在领域里持续积累认知深度而不是每次从零开始。AI 写代码的速度飞快,但品味和结构感仍然是硬伤。 学 AI 的第一步是 Unlearn 鸭哥在群里做了一个论述,核心只有一句话:如果我只能告诉你一件事,就是别再用 ChatGPT 了。这听起来很绝对,但背后有数据。之前做过更广泛的统计,所有人中真正用 AI IDE 写代码的人仅占 0.2% 左右。即使是自认为”经常用 AI”的熟练用户,90% 的操作仍然是用 ChatGPT 写代码然后拷到 IDE 里跑。 这不是工具偏好的问题,而是工作范式的代际差异。鸭哥拆了三层来解释。第一,ChatGPT 模式下 AI 没法自主判断和调试,你得充当人形工具人在窗口之间跑来跑去,这让整件事不可 scale。第二,拷来拷去没法收集全量上下文,但 AI...