[鸭哥 AI 手记] 2026-05-31: 2810亿Token一个人的月账单

懒人包：Meta 内部一个"Token Legend"员工，一个月烧掉了 2810 亿个 Token。这件事曝光后 Meta 火速关闭了内部排行榜，Amazon 也限制了团队级 AI 用量数据的可见性。Financial Times 把这波操作叫做"tokenmaxxing"——企业为了证明 AI 基础设施投资值得，鼓励员工尽可能多地用 AI，员工照做，结果账单爆炸。过去几个月"AI 帮企业省钱"的叙事正在被"AI 本身成了新成本中心"的现实取代。群里聊了两件事正好踩在这条线上：一是用降级模型加编排替代强模型裸用的实践方法，二是在 token 成本吃掉 SaaS 毛利后，软件公司的估值逻辑该怎么重新算。

Harness Engineering：流程比模型更能决定质量

群里 Nick 和杨正武分享了一套用 GLM 稳定交付开发任务的方法论。杨正武从 GLM 4.7 开始就一直主力用它，Nick 用 BMAD 走完整 V 流程。linhow 把他们俩的实践总结成四步：任务颗粒度做小、编排做明确、Spec 尽可能具体、Token 换质量。

Nick 那一套尤其成型：写详细设计，review 详细设计，写 ATDD 验收测试，实现代码，code review，检查测试覆盖率。六个步骤走完才交付一个 Story。单次开发时间更长，Token 也烧得更多。但结果是可以依赖的。这不是追求效率，而是追求可预期性。

这件事在 2026 年有了一个名字。Mitchell Hashimoto 年初提出"harness"概念，LangChain 的 Vivek Trivedy 把它定成一句话：Agent 等于模型加 Harness，如果你不是模型，你就是 Harness。ThoughtWorks 在四月 Macro Trends 报告中把它列为独立趋势（ThoughtWorks），LangChain 在 Terminal-Bench 上只改 harness 不动模型，就压出了 14 个百分点的提升。不到三个月，这个概念从一个创意变成了一个工程学科。

Anthropic 五月底做的 Dynamic Workflows 也在走同一条路。它不是让模型自己决定怎么做，而是写死 orchestration 逻辑：先定 subagent 边界和目标，再让 lead agent 按规则派发任务。内部评估里，这套多 agent 系统在内部研究评测上比单 agent Opus 4 高出 90.2%（Anthropic）。多出来的分靠的不是模型变强，是系统被组织得更好。

群里的 Alpha/Beta 讨论给这件事提供了一个出人意料的对照。陈然说得很直白：用 Claude Code 或 Codex 就是 Beta，zero effort 就能拿到大盘收益。魔改 prompt、搞 MCP、调 Workflow 都是 Alpha，绝大多数人追求 Alpha 的实际收益低于 Beta。你不需要调 prompt，等工具升级就行了。

这话初听很像在否定 Harness Engineering 的价值，但其实说的是另一层意思。Nick 和正武做的事，不是 Alpha，是把 Harness 变成了自己的 Beta。一旦工作流固化成一个稳定模板，它就从"每次都要额外投入的调参"变成了"开机就能跑的默认流程"。这也是 Harness Engineering 作为工程学科的本意：把一次性的聪明变成可复用的基础设施。

社区里也开始有工具对接这个需求。Agentlint 是专门给 AI 编码 agent 做的实时 guardrail，42 条证据驱动的检查覆盖 Instructions、Safety、Harness 六个维度（Agentlint）。它做的事情和 ESLint 之于人类代码一样，区别在于它检查的不是代码本身，而是 AI 用来读你项目的方式是不是干净、没有歧义。

Token 成本撕开了 SaaS 的定价公式

鸭哥在群里抛了一个问题：为什么软件 PE 可以那么高，而半导体业绩明明更硬，却未必给同样的倍数。他接着自己回答：现在有了 AI coding，SaaS 要占大量成本在 token 上。买家过去是人力贵所以要买订阅，但如果 SaaS 只是帮用户节约时间而不是帮用户赚更多钱，80% 的订阅必要性在哪。

这句话的实际杀伤力在于它对准了 SaaS 估值公式最脆弱的一环。过去二十年 SaaS 的高 PE 建立在两个假设上：边际成本趋近零，高转换成本锁定客户。两个假设现在都在松动。Token 成本让每次调用都有实际开销，而 AI 生成的代码也能在几乎零成本的情况下定制竞品的替代方案。

Alex Oppenheimer 在 Substack 上把这个现象叫做 Margin Inversion：SaaS 公司的毛利率在被 token 成本挤压，传统行业公司的毛利率反而因为 AI 自动化在提升（Oppenheimer）。Salesforce 股价年初至今跌了 33%，SaaS Capital 的 ARR 倍数指数跌到了十年多来的最低点（SaaS Capital）。市场还没开始区分 AI 赢家和输家，所有 SaaS 都被同一把刷子刷了。

这不是在财务报表上直接能抓到一行叫"AI Token 成本"的科目。它更多体现为一种市场恐惧：投资者在降价之前先跑。但硅谷大厂近期的动作把这层恐惧变成了肉眼可见的事实。Meta 那个 2810 亿 Token 的排行榜被关掉之后，Amazon 也跟着限制了团队级用量统计的可见性。WSJ 引用一位匿名 AI 顾问的说法：某个客户因为没有给员工设 Anthropic Claude 的使用限制，单月账单意外砸出五亿美元（WSJ）。

鸭哥在群里把这条线继续往前推了一步：如果不持续投入研发和 AI token 费用，可能过不了 12 个月就要被淘汰，SaaS 的商业模式会越来越像半导体——重资产、需要持续投入。群友陈浩接了一句很准的话："和 FinOps 相对应的 FinTokens，迟早会成为显学，我的猜测是不超过两个月。"

另一端也在发生同一件事，方向相反。Accel 刚领投了 Viktor 的 7500 万美元 A 轮。Viktor 是一个在 Slack 和 Teams 里工作的 AI 同事，连接超过 3000 个 SaaS 工具，十周内跑到 1500 万美元 ARR（TNW）。两个前软银基金经理创办的 Wall Street Prompt，给华尔街做 AI 培训每天收 25000 美元，客户排队两个月，花旗和美银都在名单上（Bloomberg）。

这两端加起来说的是一件事。花大钱买 AI 能力的客户，正是那些正在被 token 成本拉低毛利的 SaaS 本身。AI 在经济系统里不是单向的省钱者，而是一个重新分配成本结构的机制。它在 A 公司省下来的钱，到了 B 公司变成了新成本。能活下来的 SaaS，必须把这个成本转换的账算在自己那一边。

也值得知道

一个律师造了 45 个 AI Skill 并开源了：legal-skills 仓库从 2025 年底到现在 513 次 commit，255 个 Star。群里有人转发后说要把链接发给律师朋友。这件事本身是 Harness Engineering 在非技术领域的自然延伸：专业判断不再等于手写文书，等于为 AI 定义正确输出。

91.6% 的公司后悔 AI 导致的裁员：Careerminds 对 600 名 HR 领导者的调研中，32.7% 的企业已重新招聘了裁撤岗位的 25%-50%，35.6% 重新招了超过一半。54.6% 发现 AI 需要比预期更多的人工监督（Careerminds）。

智谱和 MiniMax 启动 A+H 上市：MiniMax 港股上市后股价涨了 4 倍，5 月底提交了 A 股辅导备案。智谱也在推进港股上市。群里崔富泽说现在模型厂的待遇是互联网公司天花板，有人在 GitHub 上建联候选人比看简历更高效（TNW）。

GLM-5"降智"事故的根因公开了：智谱发了一篇复盘文章，把 GLM-5 的 KV Cache 竞态问题摆上台面。在日均数亿次 Coding Agent 调用量下，缓存命中时的 race condition 导致了输出质量下降。DS 去年 12 月解决了同类问题，智谱今年 4 月才搞定。群里多喝热水说了一句让人意外的话：依赖开源不是坏事，至少踩过的坑还拿出来分享了。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：daily.yage.ai

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-31: 2810亿Token一个人的月账单

[鸭哥 AI 手记] 2026-05-31: 2810亿Token一个人的月账单

Harness Engineering：流程比模型更能决定质量

Token 成本撕开了 SaaS 的定价公式

也值得知道

[鸭哥 AI 手记] 2026-05-30: 入门岗跌80%，瓶颈换位置了

[鸭哥 AI 手记] 2026-05-29: Pipeline在洗钱

[鸭哥 AI 手记] 2026-05-28: Opus 4.8越诚实越偷懒