> 当底座模型变成可替换零件,真正值钱的是你在上面叠了什么。
懒人包:Cursor Composer 2 被扒出底座是 Kimi K2.5,揭开了 AI 编程工具"模型代工"的行业现实。群里 Meta 员工说自己"全靠吟唱一行代码没写",Harness 调查 700 名工程师却发现 AI 重度用户部署故障率高 69%。两件事指向同一个判断:代码生产已经不是瓶颈,验证闭环才是。
3 月 19 日 Cursor 发布 Composer 2,当天就有开发者在 API 流量中捕获了模型 ID:kimi-k2p5-rl-0317-s515-fast。Moonshot AI 预训练负责人确认了 tokenizer 匹配,随后删帖。几小时后 Moonshot 官方发声明,措辞微妙:承认 Kimi K2.5 "provide the foundation",同时指出 Cursor 在 K2.5 之上做了继续预训练和高计算量 RL 训练(The Open Source Press)。Cursor 通过 Fireworks AI 托管获取 K2.5 权重,这条路径本身合法,但 K2.5 的修改版 MIT 许可证要求月营收超 2000 万美元的商业产品必须在 UI 中标注 "Kimi K2.5"(SecurityBoulevard)。Cursor 目前的收入规模已经越过这条线,许可证合规问题仍在发酵。
群里天翔 Skyline(Kimi Coding Bench 负责人)现身点评:国内编程模型 glm5 和 K2.5 是第一梯队,K2.5 还没怎么上 RL,否则会更强。鸭哥追问了一个更根本的问题:Composer 1 被传基于 GLM,Composer 2 被实锤基于 Kimi,为什么每一代都换底座模型?空明流转的回答很直接:"composer 一直都不是自研,都是靠抄。"
这个判断未必精确,但它揭示了一个正在成形的行业分工。Windsurf 围绕自研 SWE-1 系列构建差异化,Codex 依赖 OpenAI 自家的 GPT-5 系列,而 Cursor 选择了第三条路:从全球市场挑选当前最强的编程底座,叠加自己的 RL 训练管线和产品体验。鸭哥昨天写了一篇详细调研拆解这条路径的逻辑。核心论点是:底座模型正在变成可替换组件,Cursor 的护城河在 RL 后训练管线、Tab 补全体验和上下文管理层。每一代换一个底座,恰恰说明底座本身已经是消耗品。
这个模式和传统硬件行业的 OEM/ODM 分工异曲同工。模型厂商(如 Moonshot)提供基础能力,工具厂商(如 Cursor)在上面做后训练和产品化。两者各有价值,但用户感知到的产品力来自后者。天翔给出了一个有趣的省钱方案:"Opus 设计 K2.5 写 5.4 去 Review",一句话道出了三层模型的分工逻辑。宝玉写代码最信任 GPT-5.4,设计和写作交给 Opus。模型选择已经从"哪个最好"变成了"什么场景用什么"。
还有一个不容忽视的商业细节。Cursor 论坛上有用户指出:200 美元/月的订阅用户平均消耗 600 美元等值的 token(Cursor Forum)。选一个成本更低的底座,是技术选型,更是商业生存。当你的用户消耗量是付费的三倍,你会优先选性能最顶的底座,还是性价比最高的?
群里 JJMoe(Meta 员工)说了一句让人停下来想的话:"今天花了三四个小时干了四五个活,全靠吟唱,一行 code 都没写,好爽。"他接着描述了自己的工作方式:多个 AI model 组成 sub-agent team,分别投标互相 battle,主 agent 行帝王之术。群友 Fermi 说"有种玩文明选体制的感觉"。JJMoe 还补了一句:"吟唱完还能剩下时间,挖出一块给爱手工撸纯算法的同事爽一爽。People Axis++。"
玩笑背后有严肃的数据支撑。Harness 上周发布的 State of DevOps Modernization 2026 报告调查了美英法德印五国 700 名工程师和技术管理者,发现了一个"速度悖论"(AI Velocity Paradox):AI 编码工具的重度用户部署故障率高出 69%,平均故障恢复时间反而更长,77% 的团队经常在测试、安全和部署环节排队等待(Harness/PRNewswire)。代码写得更快了,但交付系统没有同步升级,瓶颈从"写代码"转移到了"验证和交付代码"。
群里的实战经验精确地映射了这个发现。巢鹏分享了自己的 context 管理策略:plan 阶段就分任务,每个任务完了检查 context 占用,超过 50% 就丢弃重开。群友李大方子给出了具体的可靠性边界:GPT-5.4 在 400k context 左右开始出工具调用问题,Opus 4.6 能顶到 700k 多。宝玉的策略更简洁:一个会话只做一个任务,完成了新开。
这些操作本身就是 harness engineering 的微观实践。工程师花在管理 AI 运行环境上的时间,可能已经超过了花在写代码上的时间。巢鹏吐槽 Rust 的 unit test 跟代码在同一个文件,3000 到 5000 行很常见,context 很紧。宝玉的 Playwright 替代方案也是同一个逻辑:自己写脚本操作 Chrome CDP 来做前端验证,因为 Playwright 的截图模式太费 token。省 token 和验证结果,都是在代码层之上工作。
Jason 在群里的一段话准确描述了这个方向:"以后工程师更重要的,其实不是自己写很多代码,而是把这套'AI 能做事 + 能被验证'的闭环搭好、维护好。"斯坦福 2026 年春季新开了 CS146S "The Modern Software Developer",前半学期教 AI 辅助编程的个人生产力,后半学期直接转向安全审查、构建系统和交付管线(Stanford CS146S)。课程设计本身就是对这个转变的回应:写代码的能力不再是工程师的稀缺价值,设计让 AI 可靠运行的 harness 才是。
把两个话题放在一起看,一个有趣的对称浮现出来。Cursor 作为工具厂商,护城河在底座之上的训练管线和产品层。工程师作为个体,护城河也在代码之上的验证闭环和编排能力。底层逻辑是一样的:当生产成本坍塌时,价值向上迁移。Cursor 的底座可以换,JJMoe 的 sub-agent 也可以换。留下来的是编排方式和验收标准。
OpenAI 二月发布的 harness engineering 博文用自家 Codex 实践印证了同一个论点:真正决定产出质量的不是模型本身,而是约束、记忆和审查管线的设计(OpenAI Blog)。
小明在群里的总结很精炼:"token 数就是代码行数,刷到第一不代表什么,刷不够却很危险。"JJMoe 补充说隔壁群同事在截图比拼每天烧了多少 token,"Meta 味儿,以前刷 diffs,现在刷 tokens"。陈浩把这个分野说得很清楚:许愿式编程 ROI 很低,工程化编程 ROI 很高。差距在于你是在许愿 AI 给你写对,还是在设计一个能验证 AI 有没有写对的系统。
Claude Code Channels 上线:3 月 20 日 Anthropic 发布 Claude Code Channels(研究预览),通过 MCP 插件将本地 Claude Code 会话桥接到 Telegram 和 Discord,实现手机远程操控。群里有人评价"逼死龙虾,成为龙虾",也有人指出这只是追赶 OpenClaw 已有的能力。鸭哥则吐槽 Claude Code 的 MCP 生态仍然痛苦:OAuth 有 bug 连不上 Tavily,想用得爽还得自己写 CLI skill。(Claude Code Channels Guide)
Meta 计划用 AI 逐步替代人工内容审核:声称新系统的检测准确率已超过人类审核员。同日被曝出计划裁员 20%+,群里多人讨论北美科技裁员潮。宝玉反问"问题是不学 CS 学啥呢",没有人能给出答案。(Law.com)
阿里云 Lite 基础套餐停售:3 月 20 日起停止新购。群友吴昊 Cubic 记录了完整的补贴退坡曲线:7.9 元首月 → 限时抢 → 40 块直接下架。鸭哥同日吐槽用 Claude API 做日报每天要 6 美元,被迫从 API 迁移到 Claude Code 来控制成本。GLM 5 Turbo 北京时间夜间打三折,西半球时差党终于等到了薅羊毛的时间窗口。
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:yage-ai.kit.com
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-06-04: Uber烧完全年AI预算,设了$1500上限 懒人包:Uber 今年全年的 AI 工具预算在四个月内就烧完了,随后给每位员工设了每工具每月 $1,500 的消费上限。CTO 承认消费速度是预算预期的大约三倍,COO 表示至今无法把 AI 使用量对等到实际的消费者功能产出。同一周,OpenAI 发了一份报告,主张把 AI 熟练度定位成像宽带一样的基础经济设施,而 Anthropic 公开了自己的 80% 代码由 Claude 生成、工程师产出是 2024 年八倍的同时,又警告递归自我改进的 AI 系统需要监管干预。这三件事放在一起,指向同一个判断:AI 产业当前的最大瓶颈已经从模型能力转移到了组织吸收能力。另一边,AlphaEvolve 在 TPU 电路设计和 DNA 测序纠错上持续出成果,但 GPT-5.5 在 OpenAI 自己内部真实工程问题上的得分是 1.7%。 Uber 烧钱的四个数字和三个问题 看四个数字。Uber 给全体使用 AI 编程工具的员工设了每工具每月 $1,500 的上限,按工具独立计算:Cursor...
[鸭哥 AI 手记] 2026-06-03: 微软把研发内参印成了109页公开读物 懒人包:6月2日,微软在Build大会上发布了MAI-Thinking-1的109页技术报告。这不是又一份"我们做了个模型"的公关稿——它把顶尖AI实验室内部公认但从未公开的研发决策方法论,从数据配比的rank invariance失败到攀爬机器的MFU-EG双轴演化,全写了出来。同期,鸭哥和社群里很多人在同一周里感受到了跨模型的基础能力倒退:Opus 4.8的思考深度下降(根源是默认effort从xhigh悄悄降到了high),DS V4的代码质量与benchmark数字之间的裂缝大到十几个百分点。这两件事放在一起指向一个判断:AI产业正在经历一次信任账簿的换页——从信模型分数,转向信研发过程的透明度。 一份109页的报告,比一个模型更有信息量...
[鸭哥 AI 手记] 2026-06-02: 后台 Agent 来了,三巨头同日亮牌 懒人包:同一天三件事:Google 向美国用户推送了 Gemini Spark(首个消费级后台常驻 agent),NVIDIA 在 Computex 发布了让笔记本原生跑 120B 模型的 RTX Spark 芯片,腾讯因为微信要内置 AI agent 股价一天涨了 10%。这三件事共用一个判断:agent 的战场从模型能力转向了分发渠道。谁能把 agent 镶进用户的日常路径里,谁就拿到下一张牌。但另一组数据也在同一天浮现:Uber 开始限制每人每月 $1,500 的 AI 编码工具额度,Uber 同一天开始限制每人每月 $1,500 的 AI 工具额度。当 agent 在你睡觉的时候也在干活,按 token 计费的定价模型还撑得住吗? Agent 把聊天框拆了,钻进了后台 鸭哥昨天写了一篇分析,围绕 Google 上周推送的 Gemini Spark 展开。Spark 是一个 24/7 在后台运行的个人 agent,跑在 Google Cloud 的专用 VM...