[鸭哥 AI 手记] 2026-03-20

> 当底座模型变成可替换零件，真正值钱的是你在上面叠了什么。

懒人包：Cursor Composer 2 被扒出底座是 Kimi K2.5，揭开了 AI 编程工具"模型代工"的行业现实。群里 Meta 员工说自己"全靠吟唱一行代码没写"，Harness 调查 700 名工程师却发现 AI 重度用户部署故障率高 69%。两件事指向同一个判断：代码生产已经不是瓶颈，验证闭环才是。

Cursor 换了底座，但这件事本身比底座更重要

3 月 19 日 Cursor 发布 Composer 2，当天就有开发者在 API 流量中捕获了模型 ID：kimi-k2p5-rl-0317-s515-fast。Moonshot AI 预训练负责人确认了 tokenizer 匹配，随后删帖。几小时后 Moonshot 官方发声明，措辞微妙：承认 Kimi K2.5 "provide the foundation"，同时指出 Cursor 在 K2.5 之上做了继续预训练和高计算量 RL 训练（The Open Source Press）。Cursor 通过 Fireworks AI 托管获取 K2.5 权重，这条路径本身合法，但 K2.5 的修改版 MIT 许可证要求月营收超 2000 万美元的商业产品必须在 UI 中标注 "Kimi K2.5"（SecurityBoulevard）。Cursor 目前的收入规模已经越过这条线，许可证合规问题仍在发酵。

群里天翔 Skyline（Kimi Coding Bench 负责人）现身点评：国内编程模型 glm5 和 K2.5 是第一梯队，K2.5 还没怎么上 RL，否则会更强。鸭哥追问了一个更根本的问题：Composer 1 被传基于 GLM，Composer 2 被实锤基于 Kimi，为什么每一代都换底座模型？空明流转的回答很直接："composer 一直都不是自研，都是靠抄。"

这个判断未必精确，但它揭示了一个正在成形的行业分工。Windsurf 围绕自研 SWE-1 系列构建差异化，Codex 依赖 OpenAI 自家的 GPT-5 系列，而 Cursor 选择了第三条路：从全球市场挑选当前最强的编程底座，叠加自己的 RL 训练管线和产品体验。鸭哥昨天写了一篇详细调研拆解这条路径的逻辑。核心论点是：底座模型正在变成可替换组件，Cursor 的护城河在 RL 后训练管线、Tab 补全体验和上下文管理层。每一代换一个底座，恰恰说明底座本身已经是消耗品。

这个模式和传统硬件行业的 OEM/ODM 分工异曲同工。模型厂商（如 Moonshot）提供基础能力，工具厂商（如 Cursor）在上面做后训练和产品化。两者各有价值，但用户感知到的产品力来自后者。天翔给出了一个有趣的省钱方案："Opus 设计 K2.5 写 5.4 去 Review"，一句话道出了三层模型的分工逻辑。宝玉写代码最信任 GPT-5.4，设计和写作交给 Opus。模型选择已经从"哪个最好"变成了"什么场景用什么"。

还有一个不容忽视的商业细节。Cursor 论坛上有用户指出：200 美元/月的订阅用户平均消耗 600 美元等值的 token（Cursor Forum）。选一个成本更低的底座，是技术选型，更是商业生存。当你的用户消耗量是付费的三倍，你会优先选性能最顶的底座，还是性价比最高的？

吟唱、赛马和帝王术：当写代码变成管理代码的人

群里 JJMoe（Meta 员工）说了一句让人停下来想的话："今天花了三四个小时干了四五个活，全靠吟唱，一行 code 都没写，好爽。"他接着描述了自己的工作方式：多个 AI model 组成 sub-agent team，分别投标互相 battle，主 agent 行帝王之术。群友 Fermi 说"有种玩文明选体制的感觉"。JJMoe 还补了一句："吟唱完还能剩下时间，挖出一块给爱手工撸纯算法的同事爽一爽。People Axis++。"

玩笑背后有严肃的数据支撑。Harness 上周发布的 State of DevOps Modernization 2026 报告调查了美英法德印五国 700 名工程师和技术管理者，发现了一个"速度悖论"（AI Velocity Paradox）：AI 编码工具的重度用户部署故障率高出 69%，平均故障恢复时间反而更长，77% 的团队经常在测试、安全和部署环节排队等待（Harness/PRNewswire）。代码写得更快了，但交付系统没有同步升级，瓶颈从"写代码"转移到了"验证和交付代码"。

群里的实战经验精确地映射了这个发现。巢鹏分享了自己的 context 管理策略：plan 阶段就分任务，每个任务完了检查 context 占用，超过 50% 就丢弃重开。群友李大方子给出了具体的可靠性边界：GPT-5.4 在 400k context 左右开始出工具调用问题，Opus 4.6 能顶到 700k 多。宝玉的策略更简洁：一个会话只做一个任务，完成了新开。

这些操作本身就是 harness engineering 的微观实践。工程师花在管理 AI 运行环境上的时间，可能已经超过了花在写代码上的时间。巢鹏吐槽 Rust 的 unit test 跟代码在同一个文件，3000 到 5000 行很常见，context 很紧。宝玉的 Playwright 替代方案也是同一个逻辑：自己写脚本操作 Chrome CDP 来做前端验证，因为 Playwright 的截图模式太费 token。省 token 和验证结果，都是在代码层之上工作。

Jason 在群里的一段话准确描述了这个方向："以后工程师更重要的，其实不是自己写很多代码，而是把这套'AI 能做事 + 能被验证'的闭环搭好、维护好。"斯坦福 2026 年春季新开了 CS146S "The Modern Software Developer"，前半学期教 AI 辅助编程的个人生产力，后半学期直接转向安全审查、构建系统和交付管线（Stanford CS146S）。课程设计本身就是对这个转变的回应：写代码的能力不再是工程师的稀缺价值，设计让 AI 可靠运行的 harness 才是。

把两个话题放在一起看，一个有趣的对称浮现出来。Cursor 作为工具厂商，护城河在底座之上的训练管线和产品层。工程师作为个体，护城河也在代码之上的验证闭环和编排能力。底层逻辑是一样的：当生产成本坍塌时，价值向上迁移。Cursor 的底座可以换，JJMoe 的 sub-agent 也可以换。留下来的是编排方式和验收标准。

OpenAI 二月发布的 harness engineering 博文用自家 Codex 实践印证了同一个论点：真正决定产出质量的不是模型本身，而是约束、记忆和审查管线的设计（OpenAI Blog）。

小明在群里的总结很精炼："token 数就是代码行数，刷到第一不代表什么，刷不够却很危险。"JJMoe 补充说隔壁群同事在截图比拼每天烧了多少 token，"Meta 味儿，以前刷 diffs，现在刷 tokens"。陈浩把这个分野说得很清楚：许愿式编程 ROI 很低，工程化编程 ROI 很高。差距在于你是在许愿 AI 给你写对，还是在设计一个能验证 AI 有没有写对的系统。

也值得知道

Claude Code Channels 上线：3 月 20 日 Anthropic 发布 Claude Code Channels（研究预览），通过 MCP 插件将本地 Claude Code 会话桥接到 Telegram 和 Discord，实现手机远程操控。群里有人评价"逼死龙虾，成为龙虾"，也有人指出这只是追赶 OpenClaw 已有的能力。鸭哥则吐槽 Claude Code 的 MCP 生态仍然痛苦：OAuth 有 bug 连不上 Tavily，想用得爽还得自己写 CLI skill。（Claude Code Channels Guide）

Meta 计划用 AI 逐步替代人工内容审核：声称新系统的检测准确率已超过人类审核员。同日被曝出计划裁员 20%+，群里多人讨论北美科技裁员潮。宝玉反问"问题是不学 CS 学啥呢"，没有人能给出答案。（Law.com）

阿里云 Lite 基础套餐停售：3 月 20 日起停止新购。群友吴昊 Cubic 记录了完整的补贴退坡曲线：7.9 元首月 → 限时抢 → 40 块直接下架。鸭哥同日吐槽用 Claude API 做日报每天要 6 美元，被迫从 API 迁移到 Claude Code 来控制成本。GLM 5 Turbo 北京时间夜间打三折，西半球时差党终于等到了薅羊毛的时间窗口。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-03-20

[鸭哥 AI 手记] 2026-03-20

Cursor 换了底座，但这件事本身比底座更重要

吟唱、赛马和帝王术：当写代码变成管理代码的人

也值得知道

[鸭哥 AI 手记] 2026-06-04: Uber烧完全年AI预算，设了$1500上限

[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物

[鸭哥 AI 手记] 2026-06-02: 后台 Agent 来了，三巨头同日亮牌