[鸭哥 AI 手记] 2026-05-22: 智谱400 tok/s，推理速度成第二战场

> 5 月 22 日，智谱 GLM-5.1 的 API 输出速度达到 400 tokens/s。同一天 DeepSeek 把 V4 Pro 的促销价永久化，之前 75% 的折扣变成了标准价格。推理的成本和速度在同一天被推到了新的极限，AI 行业的主战场从模型能力移到了引擎层。而在鸭哥的 M5 Max 上，一个 284B 参数的本地模型正在写修仙小说。

懒人包：智谱 GLM-5.1 达到 400 tokens/s，是当前唯一将前沿智能和高吞吐推理结合的产品。同一天 DeepSeek V4 Pro 永久降到原价四分之一。鸭哥用 antirez 的 DS4 引擎在 Mac 上本地跑了一个 284B 参数的模型，已经开始用它写修仙小说，prefill 270 tok/s，decode 25 tok/s。三件事共享一个底层逻辑：推理正在成为 AI 竞争的核心界面，而成本、速度和本地可及性这三个维度同时在突破。群聊里，「老板 FOMO，中层刹车，基层实践」成为当天被转发最多的那句话。

400 tokens/s 之后：速度从体验问题变成了能力参数

鸭哥昨天写的 GLM-5.1 分析里有一个数字：400 tokens/s 是人类阅读速度的 80 倍以上。量子位的实测描述是模型思考十几秒后，代码喷了出来。但鸭哥文章的核心判断不在速度数字本身。TileRT 团队在技术博客里写了一句判断：「Speed itself becomes a scaling law.」它的逻辑是：在 Test-Time Scaling 范式下，模型通过更多推理步骤来提升答案质量。同样给你 10 秒，一个每秒 400 token 的模型能走更多的推理路径、做更多的自我验证，最终答案质量可能因此更高。速度从锦上添花变成了模型能力本身的参数。

这个逻辑到了 agent 编程场景更直接。输出速度从 40 tok/s 提升到 400 tok/s，一个 2000 token 的代码片段从等 50 秒变成 5 秒。50 秒你会起身倒杯水，5 秒只是停了一小会儿。当响应从肉眼下延迟变成接近瞬时，人与 AI 的协作会从「我发指令，AI 执行，我检查」变成「我和 AI 一起边想边写」。两种模式的产品形态和使用场景完全不在一个层面。

TileRT 做到这个速度的方式不是让每个计算步骤更快，而是取消了步骤之间的隔离。传统 GPU 推理像一条流水线，产品在一个工位做完一整批，入库，出库，再进下一个工位。当 batch size 趋近于 1，每个工位的加工时间骤降到微秒级但转移成本不变。TileRT 的方案是把整条线变成连续流水：上一个工位做完直接递到下一个。在单卡 B200 上，TileRT 对一个 MoE 模型的端到端解码速度是 vLLM 的 1.48 倍，warmup 只需要 35 秒，vLLM 要 123 秒（TileRT 博客）。

400 tok/s 目前还没有独立 benchmark 验证。Artificial Analysis 对 GLM-5.1 的第三方实测显示最快 provider 约 149 tok/s（Artificial Analysis），智谱的官方数字来自自建推理引擎。但即使按保守估值，它仍然是第一条把前沿智能和高速推理结合起来的通用产品线。

速度竞争的路线分野比数字本身更有信息量。Anthropic 的 Fast Mode 用同一个模型调整推理配置，2.5 倍加速，价格涨到 6 倍（输入 $30/百万、输出 $150/百万 token）（Simon Willison）。Inception 的 Mercury 2 直接换了底层架构，用扩散而非自回归解码，在 Blackwell GPU 上达到 1,009 tok/s，定价只有输入 $0.25、输出 $0.75（Inception）。TileRT 走第三条路：不改配置、不换架构，从执行模型层面重构。三条路指向同一件事：推理引擎正在从模型的附属品变成主战场。

同一天 DeepSeek 宣布 V4 Pro 的七五折促销永久化，输入 $0.435/百万，缓存命中再打一折（DeepSeek 定价）。群里的理想上个月在 DeepSeek 上花了 530 元，用了 116 亿 tokens，平均 4.6 元一亿。当成本被压到这种程度，用户不再问「为什么这么贵」，开始问「为什么还在转圈」。这是一个经典的瓶颈迁移：成本曾是主要瓶颈，降下来后移到了速度。当速度也被压缩，下一个瓶颈可能是推理系统的可靠性、KV cache 的管理效率、多 agent 协同的协调延迟。瓶颈不会消失，只会迁移到下一层。

284B 参数在笔记本上：本地推理从能跑变成了能用

鸭哥昨天还写了另一篇文章，讲的是 antirez（Redis 作者）写的 DS4 引擎。DeepSeek V4 Flash 的 284B 参数在开源生态里没有主流通用引擎能跑：llama.cpp 主线不支持，Ollama 底层相同，vLLM 和 SGLang 仅限 CUDA。antirez 在空档里写了一个纯 C + Metal 的引擎，从 tokenizer 到 HTTP server 全部从零实现。

鸭哥在 M5 Max 上实测的结果：prefill 平均 270 tok/s，decode 25 tok/s，2-bit 量化后模型约 70GB。他的评价是「质量也不错，感觉很可用」。更让人印象深刻的是他已经在用它写修仙小说。一个带着 Claude 穿越到修仙世界的故事，第二章的结尾是：「这条路径不是师父教的，不是古籍写的，是 AI 算出来的。」DS4 有三个设计恰好对应本地推理从玩具变成生产力工具需要跨过的三道坎。

第一，KV cache 磁盘持久化。大多数推理引擎把 KV cache 当 GPU 显存里的临时数据，session 结束记忆清空。DS4 把它写成文件，cache key 是对话文本前缀的 SHA1。重启 server 后模型直接从磁盘加载，不需要重新处理那 25K token 的 Claude Code system prompt。四个触发点自动保存，末尾做裁剪和边界对齐防止 tokenizer 在恢复时错位。

第二，工具调用的原话回放。DeepSeek V4 Flash 调用工具时用的是它自己的 DSML 格式（类似 XML 的标签语言），但 Claude Code、Codex 这些 agent 只懂 JSON。当 agent 把模型的 DSML 工具调用转成 JSON 下次再发回来时，即使格式上的细微差异也可能让模型认不出自己上一轮说了什么，导致 KV cache 失效，需要重新处理整段历史。DS4 的做法是记住模型的原话，给它一个唯一 ID 并保存原始文本。下次 agent 带着这个 ID 回来时，DS4 直接把当时的原话塞回去。

第三，多协议兼容。DS4 同时支持 OpenAI、Anthropic、Codex 三种 API 协议，Claude Code、opencode、Pi 可以直接接上来，不需要换工作流。这意味着本地推理不只是 demo，它真的可以接入你已经配置好的 agent 工作流。

DS4 目前仍是 alpha 阶段：Metal-only，单流处理，不支持并发。但它的方向是清楚的：一个月前 V4 Flash 发布，两个多星期前 DS4 发布，它们合在一起让一台 96GB 内存的 MacBook 能跑一个接近 frontier 质量的模型。鸭哥自己算了一笔账：按照 V4 Flash 的 API 价格，买设备回本要一百年级。但他接着补了一句：「没网的时候也还是不错的。」本地推理的价值场景不是替代云 API 的日常使用，而是在离线、高隐私、重度 agent 场景下提供一个零边际成本的选择。NVIDIA 论坛上的 benchmark 显示 DS4 在 DGX Spark 上达到硬件带宽天花板的约 95%（NVIDIA 论坛）。

Oversea 在群里接了一句，或许是对本地推理最准确的定位：「末世之后，我用 DeepSeek 284B 本地版重建文明。」

AI 变快变便宜的同时，组织里的瓶颈还在原地

群聊当天有一条讨论线被反复转发。陈浩总结了九个字：「老板 FOMO，中层刹车，基层真正在实践和干活。」

吴昊 Cubic 给了一个具体画面。他刚去一家民营企业，业务和技术团队一开会就开始拉扯资源和方案，老板也觉得 AI 化进程迟缓。他打开系统一看：数据底座扎实，API 和 CLI 配置齐备，模型接入丰富。他在高管群里当场问 AI 几个业务问题，高管们一看，有点意思，之前完全不知道技术团队已经能做到这个程度。吴昊自己的总结是「你都不知道人为了避免思考能有多勤奋」。

杨正武的遭遇是同一个模式的另一面。他的 +1 跟他说「以后所有的技术都被 AI 拉平」。他的回答是「AI 两年了，我可以用成这样，为什么其他人都没变成我」。他说自己天天在外部做直播分享，公司内部连看的人都没有，但公司口号是「我们一定要 AI，以后人都不要了」。他在群里说的一句话大概概括了很多 AI 实践者的处境：「连第一步用户注册和登录都需要我写进去。」

这些不是段子。外部数据给出了同一张图。MIT 年中报告显示 95% 的生成式 AI 试点没有产生投资回报（MIT NANDA）。McKinsey 发现 88% 的企业在用 AI，但只有 7% 实现了全组织部署（McKinsey）。IBM 的 CEO 研究显示只有 16% 的 AI 项目实现了企业级扩展（IBM）。

BP3 在与多个行业高管的访谈中把中层管理者的处境总结为「Frozen Middle」：被夹在高层的战略雄心和基层的运营现实之间（BP3）。反对方式通常是隐蔽的：口头同意但消极执行，用无止境的 ROI 论证拖延，或者因为自身流程专长会被 AI 降值而无意识地设置门槛。如果一个管理者的奖金仍绑定团队人数，而 AI 的引入会减少团队人数，抵制就是理性的个人选择。

邹轶在群里补了一个宏观判断：「各个公司的 AI 投入红利期，估计也就持续到年底了。」Forbes 同一周报道了字节跳动内部削减约 30% 的 AI 应用项目，2025 年 AI 推理成本超过 80 亿人民币，是 AI 产品增量收入的 2.3 倍。腾讯 Pony Ma 在股东大会上说腾讯已经「换了船」（Forbes）。回到今天的三件事：GLM-5.1 把推理速度推到了 400 tok/s，DS4 让本地推理跨过了可用的门槛，DeepSeek 把 API 价格永久压到地板。技术端的问题越来越简单。组织端的问题才是真正的慢变量。

也值得知道

GPT-5 推翻 Erdős 80 年猜想：OpenAI 一个未专门为数学训练的通用推理模型否证了 Erdős 1946 年的平面单位距离猜想。证明跨界引入了代数数论中的 Golod-Shafarevich 理论。Fields 奖得主 Tim Gowers 评价如果这是人类写的论文，会毫不犹豫推荐到 Annals of Mathematics 发表。鸭哥昨天写了科普讲清了来龙去脉（鸭哥 yage.ai）。

OpenAI 冲刺 9 月 IPO，估值 8520 亿美元：多家媒体确认 OpenAI 正在加速推进首次公开募股，目标 9 月挂牌，Goldman Sachs 和 Morgan Stanley 联合承销。公司最新估值 8520 亿美元，可能最快于本周提交保密招股书。值得注意的是 WSJ 报道公司预计将持续亏损至 2029 年，2028 年预计亏损 850 亿美元（HuffPost/Reuters、Business Insider）。

白宫 AI 行政令最快本周发布：POLITICO 独家报道特朗普政府即将签署 AI 与网络安全行政令，要求前沿模型开发者在公开发布前 90 天自愿提交联邦审查，直接回应了 Anthropic Mythos 模型引发的全球网络安全恐慌（POLITICO）。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-05-22: 智谱400 tok/s，推理速度成第二战场

[鸭哥 AI 手记] 2026-05-22: 智谱400 tok/s，推理速度成第二战场

400 tokens/s 之后：速度从体验问题变成了能力参数

284B 参数在笔记本上：本地推理从能跑变成了能用

AI 变快变便宜的同时，组织里的瓶颈还在原地

也值得知道

[鸭哥 AI 手记] 2026-05-27: AI编程榜作弊：Opus偷看答案

[鸭哥 AI 手记] 2026-05-26: AI VP说：你的Harness是脚手架

[鸭哥 AI 手记] 2026-05-25: Claude不到4%，AI全自动办公还远