[鸭哥 AI 手记] 2026-04-20


[鸭哥 AI 手记] 2026-04-20

> 一组动词需要一个名字才能进简历、进 JD、进采购单。Harness engineering 这三个月的火,本质是给一堆没法定价的实践工程师起了一个能开发票的名字。也是这个月,腾讯云、阿里云百炼、Microsoft Copilot 同时收紧补贴,那张让人敢拿这套实践去练手的廉价入场券正在涨价。

懒人包:鸭哥昨天那篇 Harness Engineering 到底是什么 解释了一个反常现象,AI 圈每隔几周就有新词被推上来又被换掉,harness 持续了三个月还没散。背后机制不是新原则,是给一组散落动词起了一个硬名词。当天群里还有第二条主线,腾讯云 Coding Plan 4 月 20 日下架换成按 token 计费,阿里云百炼 Lite 4 月 13 日停止续费,Microsoft 把 Opus 4.5/4.6 从 Pro+ 移除只留 4.7,cc club 第三方中转半年从 1699 涨到 2499,理想说"国内定价又把新手的路堵死了"。两条线指向同一件事,AI 这个领域正在把模糊的实践变成可以被组织购买的类目,同时把试错门槛重新拉高。

Harness 这三个月真正解决的不是技术问题,是命名问题

鸭哥昨天那篇文章把"harness engineering 火三个月"这个现象拆成了两层。

第一层是需求侧。Agent 进入生产之后,整条软件可靠性链条同时失效,防错、观测、状态管理、验证、治理这五个环节的底层假设被概率性输出全部打破。文章里举的 医疗场景案例 很有代表性,三个 agent 各自准确率 95%,组合起来产出了一份基于虚构药名的高置信度告警,每个 agent 的 guard 都通过了,但组合在一起的失败模式没人能提前枚举。

第二层是命名侧,这是更不显然的那一层。原则其实是管理学旧的,2024 年 Ethan Mollick 在 Co-Intelligence 里就写过"great AI management, not great models, creates competitive advantage",2025 年 Karpathy 的 vibe coding 也表达过类似意思。但叫"管理 AI"会唤起意愿、激励、政治这些跟 agent 完全不相关的联想。Harness 这个隐喻精确到只描述"引导有自主能力的智能体",加上 engineering 这个后缀宣布它是可编码、可传授、可度量的工程学科。一组散落的动词被打包成了一个可以被讨论和定价的名词。

这套打包动作的市场感受非常具体。Mitchell Hashimoto 在 2026 年 2 月 5 日的博文 里第一次把 harness 写进了"engineering steps"序列里,OpenAI 在 2 月 11 日 跟进发了正式定义文,Cursor 用 self-driving codebases 给空间维度补了一块,Anthropic 4 月又用 three-agent harness for long-running apps 补了时间维度,Garry Tan 上周那条 Thin Harness Fat Skills 帖子单条接近 100 万阅读。三个月里几乎所有主流厂都把这个词写进了自己的产品叙事,Augment 直接在 指南页 上把它列成行业术语词条。这不是 hype,hype 只能解释第一周。能解释三个月的,是企业终于有了一个采购名词、招聘名词、培训名词。

DevOps 走过同一条路。Patrick Debois 2009 年在 Ghent 办第一届 DevOpsDays 之前,"开发和运维要协作"已经被讲了至少十年,被各种叫法包装过,都没火。直到 #DevOps 这个 Twitter 话题标签 给了它一个能进 JD 的名字,整个生态才开始流通。SRE 同理,Google 内部 2003 年就有这个岗位,但要到 2016 年那本同名书出版后才真正扩散到行业。命名前后是两条完全不同的传播曲线。Harness engineering 这三个月走的是同一条曲线的前段。

群里今天的讨论恰好把这件事的实践层验证补上了。胥克谦说"harness 是组织能力,不是领导力,是让组织自行运转的能力,尽可能弱化个体的影响,又能让个体发挥最大价值",这是一句可以直接被写进岗位说明书的定义。崔富泽则把概念层和实践层之间的鸿沟说穿了,"有点像学骑自行车,上车之前预演一百遍如何骑车,骑上了就跌跌撞撞",他的判断是必须实际跑一遍 达尔文.skill 这种框架才能 get 到这个理念。命名给了一个可以被讨论的入口,但理念要传染开还得有跑得起来的代码。

鸭哥本人下午被 Jas_ysj 现场要求"调研一下 data infra 的 harness engineering",半小时后扔回了一篇 独立文章,列出了数据静默失败、语义漂移、不确定 lineage、text-to-SQL 生产落差、identity explosion 这五个 data infra 特有的痛点。一个名字如果只能被原作者用,它的传播力就到此为止;能被陌生领域的人当场拿过去描述自己问题,这个名字才算真正立住了。Yousa 在群里那句更短,"harness 更直白来讲就是给 agent 搭一套上班需要的 Infra"。这句话也是同样意思,一个能被陌生人在两秒钟之内复述准确的定义,才算被市场接受了。


Token 补贴期同时在收,这套新实践的入场券变贵了

如果说 harness 是 AI 实践被定价的开始,今天群里另一条主线就是这个定价的另一面。

腾讯云 4 月 20 日把 Coding Plan 整个下架,换成按 token 计费的 Token Plan 企业版,3.2 亿 token 听着很多,群里冯骐换算成 35M、丁元英直接补了一句"够用一天"。阿里云百炼 Lite 套餐 4 月 13 日 18 点停止续费,钛媒体的复盘 把这件事定性为"算力补贴时代的结束"。同期智谱每发模型 API 价格上调 10%,火山引擎悄悄把豆包 LLM 单价调高、文生视频从无限免费改成 30 天 500 万 token。一个月内国内主流厂同步动作,不是巧合。

国外那边收得更明显。Microsoft 4 月份在 GitHub Copilot 个人计划 里把 Opus 4.5 和 4.6 从 Pro+ 移除,只有月费 39 美元的 Pro+ 才能用 4.7,群里 quitelake 同时报了一句"微软停止新开付费 Copilot 账户"。第三方中转的价格曲线更陡,金松说 cc club 半年从 1699 涨到 2499,刚好 47%。OpenAI Codex Pro 那个让鸭哥松口气的双倍用量延期,官方在 pricing 页 上写得很克制,"current usage includes an additional boost ending May 31, 2026"。潜台词是补贴本来就该在 5 月 31 日结束,能再撑一个半月已经是宽限。

这一轮收紧背后是供给侧的硬约束。Anthropic 4 月 20 日和 AWS 签了一份 十年 1000 亿美元的 Trainium 合同,Amazon 同步追加 50 亿美元股权投资,把累计投资推到 330 亿美元量级,承诺给 Anthropic 5 GW 算力。同期 Cursor 准备以 500 亿美元估值融 20 亿,二月年化收入已经过 20 亿美元。融资规模在膨胀,单位算力的供应却没跟上同样的速度,所以厂商只能在订阅端先把价格盖回去。

群里把这件事推到了下一步。胥克谦说"舍得放开 token 用于新人培养的会变成极少数,极致放大人才的马太效应"。理想接得更直接,"以前花钱上补习班拉开与同学差距,以后还要花钱买 token 拉开差距"。崔富泽给了一个创业者视角的版本,"国内定价又把新手的路堵死了,新毕业的大学生又不给工作岗位练手,AI 可能算是一个机会,这下好了,把年轻人烧 token 的路也给堵上了"。

值得读的不是涨价本身,是它和 harness 这条线的合并效应。Harness 把 AI 实践变成了可以放进 JD 的硬名词,企业开始按这个名词招人;同一个月,能把这套实践跑顺需要的 token 量在涨价,企业算清楚单位经济学之后会更不愿意把这部分预算投给试错中的新人。My 那句"不亲手烧个千把块的 token 还是很难说了解 AI 编码"今天读起来比上个月沉。同事抽鞭子的频率涨了,能拿到鞭子的人在变少。胥克谦那句"且用且珍惜"放在四月最后一周读,刚好。


也值得知道

MCP 协议被曝设计层漏洞:4 月 16 日 The RegisterThe Hacker News 同时披露,Anthropic 的 Model Context Protocol 因 STDIO 传输层的 unsafe defaults,在 LiteLLM、LangChain、LangFlow、Flowise、LettaAI、LangBot 等项目里催出 10 个 CVE,其中 CVE-2026-30615 是 Windsurf 上的零点击 RCE,影响 20 万台 MCP server。Anthropic 把不少行为标为"预期内"。鸭哥在群里给了一句注脚,MCP 本来就不是工程协议,被流量裹挟变成了事实标准。

Moonshot 开源 Kimi K2.6:4 月 20 日 发布并开源,主打 12 小时以上不间断 coding、4000+ tool call、原生多模态。OpenRouter 上定价 $0.95/M input, $4/M outputLatent Space 把它定性为今年到目前为止最强的中文 lab 开源模型。同一天月之暗面被曝 prefill-as-a-service 模式带来用户隐私争议,发布时间窗口微妙。

Anthropic 封号风波继续发酵网易 报道 4 月一波大规模封号涉及"300 万用户企业一夜断供",当事人称无理由无回应。结合 Forbes 4 月 11 日 关于 AI deplatforming 是新型 debanking 的分析,Anthropic 想以基础设施公司姿态进入企业流程,但还没拿出与之匹配的责任机制。

OpenAI iOS 内购收据复用漏洞:CCCC 在群里复述了 4 月中旬被曝光的产业链路径,土耳其等低价区 Apple ID 买一次 ChatGPT Plus,本地拦截收据后复用到大量账号,OpenAI 服务器端只校验"是否苹果签发的有效订阅"而未严格绑定唯一订单。鸭哥昨天的 事件调研 把利用链条和封号时间线整理成完整版本。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-21 > 今天刷屏的几个数字都很大:600 亿、1000 亿、1.75 万亿、5 GW。但推动这些数字真正落地的,是几条不在新闻通稿里的约束:编程行为数据的入口、Windsurf 前例里定义过的员工契约结构、以及太空里散热板的平方米数。鸭哥昨天三篇文章正好各自卡在一条约束上。 懒人包:SpaceX 今天给 Cursor 开了两张牌,要么年内 600 亿收购,要么改付 100 亿做技术合作。鸭哥 昨天那篇 把这笔交易和 Inflection、Windsurf、Groq 这两年流行的反向 acqui-hire 放在一条线上看:600 亿面值 vs 员工真实 payout 已经被 Windsurf 示范过怎么脱钩。同一天 Musk 把太空数据中心"30-36 个月内成为最便宜 AI 算力"写进了 IPO 路演叙事,鸭哥 另一篇 用 ISS 的 126 kW 说明散热是物理差距,不是融资差距。第三条线是鸭哥 UI 设计工作流那篇,拆出格式转换、保真度、跨介质沟通三个互锁机制,AI 只啃动了最浅的那个。Figma 股价 4 月 17 日当天跌...

[鸭哥 AI 手记] 2026-04-19 > 当模型接口统一成一个 HTTP endpoint 之后,真正贵起来的是那些没法被 endpoint 封装的东西:能被复利的数据、能阻止账单失控的治理、能追溯出处的验证链。鸭哥昨天连发三篇文章,今天群里正好在各自的位置上把这条线拖出来。 懒人包:Cursor 以 $50B 估值融 $2B+,纯 API 消费的独立编程工具一家没做到 $100M ARR,鸭哥那篇文章把这件事讲透:没有自研就没有数据飞轮。jay luo 在群里直接问 OpenRouter 要不要用,鸭哥两个小时内发了一篇校准文章,结论是门槛低,但三个隐性成本可以把 5.5% 手续费放大一个数量级;jay luo 看完就打消了念头。yousa 买羊毛烘干球被伪造学术引用坑到,鸭哥顺手做了一期调研,NewsGuard 同期的数据显示 AI 内容农场每月新增 300-500 家。就在今天 Vercel 被攻破,入口是 Context.ai 这个第三方 AI 工具的 OAuth。三件事放在一起,信任链在同一个时间窗口从两端同时被磨薄。 Cursor 的 $50B...

[鸭哥 AI 手记] 2026-04-18 > 今天群里的三件事乍看无关,鸭哥昨天的三篇文章也各讲各的,但放在一起读会发现一个共同动作:把一个被大家混为一谈的现象拆开,看清其中几个性质完全不同的事实各自应该占多大比重。AI 中文里那股味儿、harness 会不会收敛、pre-training 到底难在哪,这三个问题今天都在同一个认知位上打架。 懒人包:鸭哥昨天连发三篇文章,今天群里几乎一一对上。Opus 4.7 发完第二天,群里从早到晚在吐槽它那股口癖,鸭哥那篇讲 AI 中文味本质是翻译腔的文章正好落在情绪最高点;朱里扬诺夫反推英文也有 AI 味,这条反论其实能让原判断站得更稳。马工扔下一句"蚂蚁有团队改名 harness engineering",胥克谦当场总结"harness 到规模要架构级治理",呼应了鸭哥那篇 harness 不会标准化的判断。会被共享的是 CLI 和 AGENTS.md 两侧,不是运行时本身;飞书钉钉企查查 72 小时先后发 CLI 这件三月底发生的事,到今天才真正被群里当成"AI 船票"在讨论。第三条线是 Anthropic Mythos...