> AI21 Labs 裁掉六成员工,公司在声明里给自己写了句判决书:「模型本身不是充分的收入来源。」同一天 Meta 内部文件流出:再裁 8000 人,强制 7000 人转入四个新 AI 组织,内部称为「the Draft」。一个收缩一个赌命,指向同一个判断。另一条线上,群里在讨论 Pi——一个极简到只有 4 个工具的编程 agent,benchmark 不输竞品,但 Anthropic 的订阅策略让它的核心用户群用不了。
懒人包:先记住两个数字,60% 和 7000。AI21 Labs 昨天从 180 人缩到约 70 人,公司声明自己写了一句判决书。这是五年内第五家以同样模式退场的独立模型公司。另一边的故事是 Pi:一个系统 prompt 不到 1000 token 的编程 agent,Terminal-Bench 上对 Cline 互有胜负,但它最大的对手不是竞品,是 Anthropic 不让订阅用户把 credits 花在第三方工具上。两件事的共同逻辑比分开看深一层:当模型层商品化以后,中间地带在消失——既不是超级平台又缺独特护城河的玩家,正在被双向挤压。
AI21 Labs 不是第一家倒下的模型公司,但它的退场声明最干净。累计融资约 3.36 亿美元,估值峰值 14 亿美元,从 2017 年开始先后推出 Jurassic-1、Jurassic-2、Jamba 等语言模型。2021 年 Jurassic 还是 GPT-3 的有意义竞争者。到 2024-2025 年,当 GPT-4、Claude 和 Gemini 在多模态、推理、长上下文上形成体系化优势后,追赶的资本成本呈指数增长。公司声明的那句话本身就是行业总结(Globes)。
剩下 70 名工程师全部转向 Maestro——一个模型无关的企业编排平台,接收任务后自动规划推理路径、选择最优模型和工具组合、动态扩缩计算资源。这和 a16z 在 5 月密集输出的 Enterprise Orchestration Layer 论点方向一致:价值正在从模型层迁移到能读取数据、推理和采取行动的编排层(a16z 播客)。
同一天,Meta 在走另一条路。内部备忘录显示将裁掉约 8000 人,7000 名员工被重新分配到四个新 AI 组织,6000 个未填补岗位关闭。其中约 1000 名顶级工程师被以「the Draft」的方式强制调入 Applied AI Engineering 部门,拒绝调动者面临解雇。员工将这个等待期称为「28 天的地狱」(NYT,WIRED,Business Insider)。
但五年来的故事不只有 AI21 和 Meta。2024 年 3 月到 2025 年 7 月的 16 个月内,Inflection AI、Adept AI、Character.AI、Covariant 和 Codeium/Windsurf 五家公司以几乎完全相同的交易结构被大型科技公司吸收:大公司雇佣核心团队并许可技术,但不直接收购公司,以此规避反垄断审查。这个结构本身就是一个信号——买方不认为这些公司的独立业务值得购买,他们只要人才和知识产权。
鸭哥昨天在《AI 模型公司的两条死路与一条活路》里把这个判断讲得透彻:模型能力在收敛,token 定价两年降了约 100 倍,卖模型本身变成了一门结构上不可持续的业务。存活者各有护城河,但没有一家在「只卖模型」。Mistral 靠欧洲 AI 主权拿到 140 亿美元估值,预测 2026 年收入达 10 亿欧元(Le Monde)。Cohere 放弃前沿模型竞赛,专注受监管行业的企业部署,ARR 一年内从 1 亿翻到 2.4 亿(The AI Insider)。DeepSeek 背靠量化对冲基金,估值在几周内从 100 亿飙到 450-500 亿区间(GenAI Assembling)。这些公司的共同动作是全部在主动向上或向下移动。Anthropic 的 Claude Code 是开发者工具,Mistral 的 Le Chat 是消费者产品,Cohere 卖的是解决方案。纯卖模型 API 的公司,不管大小,都在退出历史舞台。
群里蒸馏鸭哥补了一个算力侧视角:「如果 capex 增长放缓,铲子团队的利润也会被暴击。」这句话正好接上了 PitchBook 的数据:2026 年 Q1 AI 领域融资总额达到创纪录的 2555 亿美元,但仅 OpenAI(1220 亿)、Anthropic(300 亿)、xAI(75 亿)三笔就占了 67.3%(PitchBook)。资金体量仍被模型层主导,但应用层的 deal count 远高于模型层(1543 vs 396),且早期融资同比增长 41%(Crunchbase)。投资者的注意力在从「模型」往「模型之上」移动,钱还没完全跟上,但方向已经定了。
Pi 是 Mario Zechner 在 2025 年 11 月发布的一个极简 AI 编程 agent。它的设计哲学可以从一份清单来理解:no MCP、no sub-agents、no plan mode、no built-in to-dos、no permission popups、no background bash、no compaction。system prompt 不到 1000 token,只有 4 个工具。对比 Claude Code 光是 Playwright MCP server 就有 21 个工具定义,占 13700 token,还没开始干活就用掉了 7% 的上下文窗口。
极简不等于弱。Cline 团队在 Terminal-Bench 2.0 上的对比数据很清楚:在 GLM-5.1 和 MiniMax-M2.7 上,Pi 超过了 Cline;在 DeepSeek-V4-Pro 上只差 Cline 1 个百分点(Cline)。四个工具和不到 1000 token 的系统 prompt,在性能上没有吃亏。
但 Pi 最好的潜在用户群——Claude 用户——用不了它。换个说法:Pi 最适合的那批人,账上已经付过 Anthropic 的钱,但这笔钱只能在 Claude Code 里花。Anthropic 的订阅策略很清楚:Claude Max 订阅(每月 100 到 200 美元)的 credits 只能在 Claude Code 里消耗,不能在第三方 harness 上用。2026 年 2 月 Anthropic 更新法律条款,明确写着使用 OAuth token 在第三方产品中调用 Claude 构成违约。技术层面做了请求体指纹校验:system prompt 必须以特定字符串开头,tools 必须匹配 Claude Code 的 PascalCase 工具定义,不满足就返回 400。4 月 4 日全面执行后,OpenCode 随即移除了 Claude Pro/Max 支持(The Register,Latent.Space)。
对比 OpenAI 的策略,差异是系统性的。Cline 的更新日志明确记录了「GPT-5.5 model support for OpenAI Codex subscription users」。OpenAI 的「Codex for Open Source」官方页面直接列出了支持的工具清单:「whether that's Codex, OpenCode, Cline, pi, OpenClaw, or something else.」(OpenAI)。同一笔钱在 Anthropic 生态里只能花在 Claude Code 上,在 OpenAI 生态里可以花在任何兼容工具上。这个差异直接决定了一个独立 harness 在哪个模型生态里有存活的可能性。
鸭哥昨天在《Pi:一个更好的 AI 编程工具,被挡在了门外》里把这个判断讲透了:技术可行性从来不是问题,商业策略才是决定因素。
群里也在讨论同一层道理。靠谱的老马力推「默认配置优先,不要无脑装各种 MCP/Skills」,理由是模型升级后很多外挂反而成为拖累系统的那个。yousa 补了一层更细的判断:纯工具型 MCP(查数据库、调内部 API)正交性强,升级影响小;但「教模型怎么思考」的 skill 和规则文件最容易过时。这个判断和 AHE 论文的量化发现重叠了:在 Terminal-Bench 2 上做 10 轮自进化后,只优化 system prompt 让成功率反而下降 2.3 个百分点,而优化工具定义(+3.3%)、中间件(+2.2%)、长期记忆(+5.6%)均为正向(arXiv 2604.25850)。
Pi 证明了一件事:好的工具设计是正交的、最小化的、不替模型做判断的。但它的困境也说明另一件事:当模型公司把生态锁定做成默认策略以后,设计哲学再好也只是必要条件。中间地带不仅在模型层消失,也在工具层消失。
Musk 诉 OpenAI 全败:5 月 18 日奥克兰联邦法院陪审团一致驳回 Musk 对 OpenAI 的全部指控,法院认定起诉超过法定时效。该裁决为 OpenAI 后续 IPO 扫清一大法律障碍(Gizmodo)。
Moonshot AI 改组架构,赴港 IPO:Bloomberg 报道,月之暗面通知投资者将拆除红筹架构,以满足中国证监会收紧的中资赴港上市要求,最新一轮融资约 20 亿美元、估值超 200 亿(Yahoo Finance)。
Cerebras IPO 更新:拟发行 3000 万股,每股 $150-160:AI 芯片公司 Cerebras Systems 更新发行计划,此前手握 $246 亿未确认合同收入,含与 OpenAI 的 $200 亿算力协议(WSJ)。
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:yage-ai.kit.com
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-06-22: 代码翻倍 bug 涨 30 倍,AI 编程漏算了恢复这一环 懒人包:金松在群里提了一句:用了 AI 写代码后,bug 翻了 30 倍不止,手头好几个项目都超过 22 万行。linhow 跟着说,能清楚意识到 bug 涨了 30 倍的团队,十个里面也就一两个;一大半还陷在效率提升 30 倍的兴奋里没出来。AI 把产出代码的成本砸到了地板,但犯错的代价纹丝不动。代码那一层已经有人在解决恢复问题,只是远没铺开;设计那一层的错误,连怎么恢复都还没人想过。 让错误更便宜:benchmark 从来不测的那一项 鸭哥昨天写了一篇《让 AI 更准,还是让错误更便宜》,切开了一个平时很少有人注意的区分:AI 编程的靠谱程度可以拆成两条线,一条是让模型错得更少,另一条是让错了之后收拾起来不费劲。过去两年整个行业的投入几乎全堆在第一条线上,第二条线只有 Replit 一家在系统性地做。 Forbes 六月份的报道给金松的数字配了一个宏观注脚:AI agent 产出的代码量涨了 180%,真正交付的软件只多了 30%(Forbes)。Google DORA...
[鸭哥 AI 手记] 2026-06-21: 约束文档比生成的代码还多 懒人包:「夸张的话,到最后约束模型的文档比模型生成的代码还多。」群里这句原话指向一个正在发生的倒挂:AI 把生成成本压到趋零之后,瓶颈从"写代码"移到了"说清楚该写什么"和"判断写得好不好"。同一天,行业数据显示 88% 的 agent 项目没活到上线,失败核心不在模型能力而在评估实践落后。两个问题讲的是同一件事:当生成比验证便宜太多,行业基础设施的短板就藏不住了。 约束先行:当生成太便宜,说明书成了主体 群里一整天的讨论绕着同一根线在转。陈浩说"AI 提高了执行效率,出屎山代码的效率也高了,又快又臭又多"。三和四接了一句今天最精准的判断:"模型出一个方案一会儿就结束了,人阅读、找到中间的问题、评估后面的改动前后可能要好几天。"两句话合在一起,画出了一条不对称的速度曲线:生成端在加速,判断端没有。...
[鸭哥 AI 手记] 2026-06-20: 每挣一块花两块六,AI泡沫的三重面孔 懒人包:OpenAI去年净亏390亿——每挣一块钱花两块六。鸭哥昨天发文拆解了AI行业同时存在三种不同性质的泡沫风险,各自有不同的破裂方式和时间线。同一天,DeepMind的白皮书揭示AI安全的核心矛盾已经从"模型说了什么"迁移到"agent做了什么"。而群聊里一场关于用AI十倍提效结果升职失败的讨论,把执行力和判断力之间的张力推到了个人职业层面。 AI不是一块泡沫,是三块 鸭哥昨天在 AI 是不是泡沫:三种不同的答案 里做的第一件事,是拒绝回答"是不是泡沫"这个问题的原样。他把泡沫拆成了三件事。 第一种是债务传导演进为信用危机。大厂建数据中心的钱不全来自股权,Alphabet发了850亿美元债,Oracle接近500亿,Amazon 370亿。股权泡沫破了股东认亏走人;债务泡沫破了,违约沿着放贷链条往外蔓延。6月16日泄露的OpenAI审计财务刚好印证了这种结构的脆弱:公司营收从37亿涨到130亿,但R&D支出从78亿飙到192亿,运营亏损209亿(Ars...