懒人包:「夸张的话,到最后约束模型的文档比模型生成的代码还多。」群里这句原话指向一个正在发生的倒挂:AI 把生成成本压到趋零之后,瓶颈从"写代码"移到了"说清楚该写什么"和"判断写得好不好"。同一天,行业数据显示 88% 的 agent 项目没活到上线,失败核心不在模型能力而在评估实践落后。两个问题讲的是同一件事:当生成比验证便宜太多,行业基础设施的短板就藏不住了。
群里一整天的讨论绕着同一根线在转。陈浩说"AI 提高了执行效率,出屎山代码的效率也高了,又快又臭又多"。三和四接了一句今天最精准的判断:"模型出一个方案一会儿就结束了,人阅读、找到中间的问题、评估后面的改动前后可能要好几天。"两句话合在一起,画出了一条不对称的速度曲线:生成端在加速,判断端没有。
这条不对称不是靠多给模型算力能解决的。三和四的实践给出了一个方向——他把需求逐级分层,颗粒度压到一定程度之后模型就很听话。但他紧跟着又补了全篇最直白的一句:"夸张的话,到最后约束模型的文档比模型生成的代码还多。"这不是抱怨。这是重心迁移的准确描述。
陈浩的做法叫 SDD——在让 AI 写代码之前先确认它打算怎么写。这和传统软件工程里的 TDD 血缘最近,但区别在于约束不再只是测试用例,而是对 AI 行为的完整指令集。GitHub 在 2025 年开源的 Spec Kit(GitHub)把这条路标准化成了四步:生成规格、产出技术架构、拆分任务、逐任务执行,每一步都要人工审查。Amazon Kiro 和 Tessl 也在走类似的路线,区别只在规格和实现之间的耦合松紧。学术界 2026 年的一篇综述(arxiv 2602.00180v1)把这类实践分了三个层次:spec-first 先写规格再编码、spec-anchored 规格和代码互相约束但允许漂移、spec-as-source 规格是唯一制品、代码全由规格重新生成。三种路线的共同前提是同一个:代码不再是资产,规格才是。
换到数据里看,事情更清楚。GitHub 的对照实验(2024, n=202,盲审)发现 GitHub Copilot 辅助的代码通过全部 10 个单元测试的概率高出 53%,错误密度低 13.6%(GitHub Blog)。但代码分析平台 GitClear 追踪了 2.11 亿行真实仓库变更(2020-2024,Google、Microsoft、Meta 及企业仓库),看到的是另一面:代码 churn 率(两周内被回退或大幅改动的比例)从 3-4% 跳到 5.5%,Copilot 采用率与 churn 率的相关系数高达 0.98(GitClear)。复制/粘贴代码块占比从 8.3% 升到 12.3%,重构类操作从 25% 跌到不到 10%。两组数据的矛盾不是谁对谁错——GitHub 测的是"给定一个微任务,AI 辅助做得如何",GitClear 测的是"长期大量使用后,代码库的整体健康度如何"。单次更好,累计更差,这正是"又快又臭"的定量解释。
Replit CEO Amjad Masad 从安全面给了一个补丁:revertability。他提出的逻辑很直白——只要系统可回滚,就不怕 AI 乱探索。这条路的技术实现分两层:File History 做细粒度随时恢复,Checkpoints and Rollbacks 做 Git 级别的灾难回滚(Replit Docs)。Anthropic 的 Claude Code 社区也有大量用户要求原生 undo/restore 功能,理由写得很清楚——可靠的回滚"会改变用户信任游戏的规则",让 builder 敢于让 AI 试更冒险的方案(GitHub Issue #6001)。可回滚性正在从边缘功能变成 AI 编程工具的一等公民需求。
马工在讨论里把这个话题推到了更根本的位置。他说传统软件的 non-functional requirements——分层、模块化、可测试、可观测、可扩展——都是为人服务的。AI agent 需要另一套 NFR,适配的是机器视角而不是人类管理视角。这个判断和 Checkmarx 2026 年提出的两层护栏架构不谋而合:内层在代码生成瞬间做实时模式风险分析,外层在集成时做自动化策略检查和运行时风险评估(Checkmarx)。他们把 AI 生成的代码定义为"不可信输入"——这个措辞本身就是一套新的安全基准。
如果约束先行写的是"怎么做才对",评估要回答的是"怎么知道做对了"。而群里反复出现的信号是,后一个问题的答案远比前一个稀薄。
Ethan 说得最直白:"测试自动化这里确实很落后,我老是说现在我们处于石器时代。"他正在让 coding agent 写 agent 本身,发现 agent 会不自觉地退回到传统代码的习惯。他拟了一份宪章来约束——"不许这样干,不许那样干"。但"宪章"背后隐含的问题是:评估能力跟不上约束声明,你写了一条规则,却没有自动检查这条规则是否被遵守的手段。
陈浩的小半年工作全在 LLM as judge 上——让 LLM 去评估另一个 agent 的产出质量。这条路线在技术上可行,但偏差问题远未解决。当前最主流的自动评判基准 Arena-Hard-Auto v2.0(arxiv 2406.11939)用 GPT-4.1 和 Gemini 2.5 当裁判,在所有开放型 benchmark 中与人类偏好的相关性最高。但实践者在 Reddit 上的反馈两极分化严重:有人说 LLM judge"比人类抽查能捕捉到更多细微错误",另一个人报告说找真实领域专家对标后,发现专家打分和 judge 得分"相关性为零,甚至略微负相关"。已知偏差包括位置偏差(偏好特定位置的选项)、冗长偏差(偏好更长的回答)、自我增强偏差(偏好自己风格的输出)。缓解方案有人提出了三裁判协议——两个不同类型的 LLM 加一个交叉一致性检查模型——但还远没到可以独立做决策的程度。
评估能力的落后在全部数据里都有痕迹。Gartner 2025 年调查显示 85% 的 AI 项目未能进入生产。Digital Applied 的综合数据表明 88% 的 agent 项目从未进入生产环境,成功到达生产并持续运行的仅占 12%(Digital Applied)。失败原因按频率排序:需求范围蔓延排第一,评估标准缺失贯穿全程。平均每个失败项目直接成本约 34 万美元。Stanford 和 Laude Institute 的 Terminal-bench 2.0 更具体——表现最好的 agent 也只完成了 81.8% 的真实命令行任务(Terminal-bench),五个任务里就失败一个。
奔跑的蜗牛在群里抛出了一个把评估难度量感化的问题:他有一个 1000 页左右的评估手册,要用来对照审核 30 页的自写文档,每条都不能漏。关键词是"逐条"——不是抽样,不是感觉型的 review,是全量覆盖。马工的回应是这类需求"一看就是大公司法务部审合同",但他接过类似需求后拒绝了——不是 AI 做不到,而是"所谓的速度不够快只是表面原因",真正的困难在场景选择。国有企业项目会因为没有验收标准而陷入无限验收死循环。quitelake 给了一条实操底线:"没有测试集的项目我根本不接。否则很容易陷入无限的验收死循环。"
Klarna 的教训把这件事从群聊拉到了产业尺度。2024 年初 Klarna 用 AI agent 处理了 230 万次客服对话,替代 700 名人工客服,解决时间从 11 分钟压缩到 2 分钟。2025 年 5 月,Klarna 调头重新雇用人工客服。结论不是技术失败——它确实做到了更快的解决——而是评估维度太窄。速度通过了,用户满意度没通过。技术成功不等于交付成功,这个教训和群里"石器时代"的判断完全重合。
眼下 AgentOps 赛道正在试图填补这个缺口。Braintrust、LangSmith、Arize、AgentOps 等十几家公司各自盯着 observability 的某一层——tracing、evaluation、governance。Braintrust 的客户包括 Notion(issue triage 从每天 3 个提升到 30 个)、Stripe、Vercel 等(Braintrust)。Langfuse 提出了三层评估框架:黑盒看最终输出,玻璃盒 trace 整个执行轨迹,白盒做单步骤级评估。OpenTelemetry 正在成为 agent 遥测数据的标准格式。但行业离"agent 测试覆盖率"这样的共识指标还有相当的距离。
把约束先行和评估落后两条线拼在一起,看的是一个正在拉开的剪刀差。生成端在加速——Claude Code 七个月里单次会话时长从 25 分钟翻倍到 45 分钟以上,GPT-5-Codex 可以让一个科学家 3-4 分钟语音完成全天工作。但验证端几乎没有对称的工具进步。Gartner 预测到 2027 年 40% 以上的 agentic AI 项目会因成本和价值不清而被取消。评估不是锦上添花,它是区分"能跑"和"能用"的那条线。目前这条线还画得很粗糙。
The Atlantic: 互联网上没有东西是安全的了。Palo Alto Networks 日均攻击量一年内增长 4 倍,漏洞利用时间从 2020 年的 700 天压缩到 2025 年的 44 天。vibe-coding 产出的不安全代码已导致 Amazon 电商多次宕机(The Atlantic)。AI 不仅在被用来写漏洞,也在写漏洞。
诺贝尔奖得主人才争夺白热化。John Jumper 离开 Google DeepMind 加入 Anthropic(Reuters),Noam Shazeer 同周离开 Google 加入 OpenAI(TechCrunch)。Google 一周连失两员大将。
Databricks 发布企业级通用 AI Agent。AI agent 从实验品走向企业部署,金融行业在讨论"要么你有 agent,要么他们有 agent,但支付方式将发生根本变化"(WSJ)。
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:daily.yage.ai
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-06-20: 每挣一块花两块六,AI泡沫的三重面孔 懒人包:OpenAI去年净亏390亿——每挣一块钱花两块六。鸭哥昨天发文拆解了AI行业同时存在三种不同性质的泡沫风险,各自有不同的破裂方式和时间线。同一天,DeepMind的白皮书揭示AI安全的核心矛盾已经从"模型说了什么"迁移到"agent做了什么"。而群聊里一场关于用AI十倍提效结果升职失败的讨论,把执行力和判断力之间的张力推到了个人职业层面。 AI不是一块泡沫,是三块 鸭哥昨天在 AI 是不是泡沫:三种不同的答案 里做的第一件事,是拒绝回答"是不是泡沫"这个问题的原样。他把泡沫拆成了三件事。 第一种是债务传导演进为信用危机。大厂建数据中心的钱不全来自股权,Alphabet发了850亿美元债,Oracle接近500亿,Amazon 370亿。股权泡沫破了股东认亏走人;债务泡沫破了,违约沿着放贷链条往外蔓延。6月16日泄露的OpenAI审计财务刚好印证了这种结构的脆弱:公司营收从37亿涨到130亿,但R&D支出从78亿飙到192亿,运营亏损209亿(Ars...
[鸭哥 AI 手记] 2026-06-19: AlphaFold之父跳槽Anthropic,判断力在重新定价 懒人包:Nobel laureate John Jumper 离开效力九年的 Google DeepMind 加入 Anthropic。这件事背后有三条独立但指向同一个方向的暗线:AI 放大执行不放大判断,最会用 AI 的人正在被自己的效率反噬;Midjourney 靠社区订阅现金流造出了全身扫描仪,在 93.6% 的 AI 资本流向四家 VC-backed 公司的格局里走了另一条路;钉钉 CEO 把 agent-friendly 写进 KPI,企业软件的设计范式正在从给人看转向给 agent 调。 AlphaFold 之父换队,判断力的溢价刚刚开始 6 月 19 日,John Jumper 宣布离开 Google DeepMind,加入 Anthropic(Reuters)。他是 AlphaFold 的核心缔造者,2024 年诺贝尔化学奖得主,在 Google 待了九年。就在同一天稍早,Transformer 论文作者之一 Noam Shazeer 也确认离开...
[鸭哥 AI 手记] 2026-06-18: SpaceX 600亿买Cursor:编程变了 懒人包:SpaceX 在 6 月 16 日宣布以 600 亿美元全股票收购 Cursor 母公司 Anysphere——18 个月内估值从 25 亿涨到 600 亿,对应约 24 倍市销率。这不是一笔传统的 IDE 收购。同一天,鸭哥从 Anthropic 40 万次 Claude Code 会话数据里挖出了一条清晰的用法迁移曲线:七个月里 debug 占比砍了近一半,运维和写作翻了一倍。两天前 Vercel 开源了 eve,一句"agent 就是一个文件夹"把 agent 框架的路线分歧直接摆上了台面。三件事合在一起,讲的是同一件事的不同切面:编程这件事,正在从一个人盯着一行代码改,变成把整个任务交给 agent 自己去跑。工作关系在变,角色在变,技能的价格标签也在变。 SpaceX 花 600 亿,买的不是 IDE 6 月 16 日 SpaceX 宣布以 600 亿美元全股票收购 Cursor 母公司 Anysphere(Reuters)。同一天前后,OpenAI 收购了...