[鸭哥 AI 手记] 2026-04-29: V4-Flash 几块钱跑一天,agent 开始变私有


[鸭哥 AI 手记] 2026-04-29: V4-Flash 几块钱跑一天,agent 开始变私有

> 鸭哥昨天在群里说自己写文章已经从 Opus 4.6 切到 DeepSeek V4-Flash,Ethan 同时说"跑了很久才几块 RMB"。这件事单看像是又一个降价段子,但和昨天三篇 yage.ai 文章放在一起,能看到一条更隐蔽的暗线:模型供给、工程实践和社交占有这三层,正在同一周里被同时往"私有"那个方向推。

懒人包:DeepSeek 4 月 24 日预览发布的 V4 把 1M context 和 agentic workload 当成显式设计目标,V4-Flash 的官方报价是 $0.14/$0.28 每百万 token,比 Claude Opus 4.6 便宜一个数量级(OpenRouterfello.ai 价格表);鸭哥昨天那篇 深入浅出 DeepSeek V4 把 hybrid attention、OPD 这些工程取舍写给非研究员看,重点是 V4 不再追求理论最简,而是公开了一组复杂工程拼装的代价。同一天发布的 AI coding 里真正有复利的东西 给出反向问题:模型成本再低,没有 AGENTS.md、确定性验证、团队标准这些工程资产兜着,反复迭代就会被 Vantage 测出来的"30 倍 retry 账单"吃掉(Vantage)。第三篇 小龙虾的技术负担反而变成了传播资产 是同一件事的社交版:当 agent 第一次能私有化部署,"我的虾"开始替代"我用 Manus",腾讯云、阿里云的部署教程在 4 月密集上线(腾讯云开发者社区阿里云开发者社区)。

V4-Flash 把 agentic 推理拉到几块钱一天

群里最先发酵的是价格。Ethan 说"跑了很久才几块 RMB, 这价格.... 等智力再高点, 那还了得",冯骐补充"在跑本地部署的 deepseek-v4-flash,确实感觉挺好的"。鸭哥更直接:"我现在写作已经从 opus 4.6 切到 deepseek-v4-flash。我感觉 pro 依托答辩,flash 反而好不少。"

把这句话翻成账单:DeepSeek 官方报价 V4-Flash 是 $0.14 / $0.28 每百万 token,缓存命中价 $0.0028(fello.ai 整理);同期 Claude Opus 4.6 是 $5 / $25。Vantage 测了一个 50 轮典型 agent 任务,全程约 100 万输入 token、4 万输出 token,单次会话在 Opus 上跑出约 $6,Composer 2 Standard 同任务约 $0.60,年化差距 10 倍(Vantage)。V4-Flash 的位置介于这两者之间但靠近后者,"几块 RMB 跑一整天"在数字上是成立的。

价格只是 V4 的表层。鸭哥那篇文章反复强调一件事:V4 的 technical report 不漂亮。它在 attention 层做了三段拼装:HCA 提供远处的一张超压缩地图,CSA 提供一个可查询的索引,近处再加一个 128-token 的 sliding window;后训练走 OPD 而非更简单的 mixed RL;optimizer 一半 Muon 一半 AdamW;连 residual 通道都加了 mHC 这种 6.7% overhead 的稳定性补丁(V4 technical report)。彭超在群里转的 《不诱于誉,不恐于诽:从 V4 这 58 页看中西两条路的根本分野》 给出了一个判断:把别处的组件挑出来,在工程层面拼成稳定可服务的系统,本身比单一原创更难复制。

往下挖一层,这件事跟 Karpathy 4 月底那场访谈是同一个判断的两面。Karpathy 在 Sequoia 那段对话 里把 vibe coding 称为"已经过去式的一代",下一代叫 agentic engineering,开发者的位置从 prompt 输入者变成 supervisor-in-chief(Business Insider)。V4 的设计哲学是这条判断的供给侧落地。当 agent 任务变成主流负载,模型的设计目标就要从"一次问答更聪明"换成"十几轮工具调用还能保持任务状态"。1M context 的用途也跟着变了,重点不在塞下一本书,而在让 agent 在第 40 轮还能看见第 5 轮报错的那个 JSON。

V4 这一面带来的现实压力是:闭源厂商不能再把 agentic 能力当成订阅墙背后的差异化资产。一个 MIT 协议、可在本地部署、价格便宜一个数量级、且把所有工程取舍写在 58 页 report 里的 open-weight 模型已经摆在桌面上。


模型成本下降也救不了反向复利

群里第二条主线是马工那句"vibe coding 是走了一条歪路"和 yuetang 转的 《同一个 Bug 修 4 次,token 账单差 30 倍》。这两条放在一起说的是同一件事:当模型单价下降,浪费它的代价也下降,于是浪费总量反而上升。

机制不复杂。Vantage 把这个现象叫 retry loop compound:agent 在第 40 轮遇到测试失败,重试一次就是带着 30,000+ 输入 token 的完整上下文重发一次;连续三次失败的代价不是 3 倍单轮成本,而是 3 倍"已经膨胀过的那一轮"的成本(Vantage)。这就是斯坦福那篇被群转的论文给出的经验数据:同一个 bug 在不同 agent 行为模式下的 token 消耗差距能拉到 30 倍。模型本身没变贵,是上下文沿着错误方向在复利。

谷雨在群里给出的判断更直接:"token 烧得多不代表你使用 token 的效率就高。它有时候 token 消耗量大,只是单纯地因为它并没有使用最优路径。" 鸭哥昨天那篇复利文章的角度是反过来的:哪些东西在正向复利?答案是机器可读的上下文(AGENTS.md 这类规则文件)、确定性验证(测试、lint、type check 作为 agent 的导航信号)、把团队标准编码为可执行基础设施(写给 AI 执行的约束,不是写给人看的 style guide),以及问题定义和验收标准。每一项的特点都一样:写一次,未来所有 session 复用。

这条逻辑跟 V4 的工程哲学是同构的。V4 在模型层做的事情是把多个外部组件拼装成稳定系统:OPD 来自 Thinking Machines Lab 的工作,Muon 来自 K. Jordan 等人的 optimizer 研究,Hyper-Connections 来自 Zhu 等人 2025 年的工作;DeepSeek 的贡献是工程整合、是公开 report、是把别人的零件接成长期可服务的系统。鸭哥的复利文章在工程实践层做的是同一件事:单点的 prompt trick 半衰期以模型升级为单位,能复利的是被沉淀进 repo 的上下文、验证和标准。

更扎心的反例在 GitClear 跟踪的 2.11 亿行代码变更里:2020 到 2024 年间,重构和移动代码的比例从 25% 跌到 10% 以下,复制粘贴比例从 8.3% 升到 12.3%(GitClear)。模型生成局部可用代码的能力越强,没有架构判断的团队代码库劣化得越快。Anthropic 自己那项 RCT 也很不留情:使用 AI 的初级工程师在概念理解测验上比手写组低 17%(Anthropic)。工具本身没问题,是用法决定了能力在被加速积累还是在透支。

所以"模型成本下降"对正负方向都加了倍。对建立了上下文供给和验证基础设施的团队,便宜模型让正向复利跑得更快;对没建的团队,便宜模型让 retry loop、复制粘贴和系统理解流失也复利得更快。


"我的虾":agent 第一次有了归属语法

第三条主线是小龙虾,群里讨论的角度比公开报道更尖锐。鸭哥在群里复述了一位群友的判断:"在小龙虾之前,AI Agent 它像是一个公有性质的产品,我能用 Manus 你也能用 Manus,我能用 DeepSeek 你也能用 DeepSeek。小龙虾出现以后,它变成了一个能占有、能训练、能炫耀的东西,这个社交属性一下就全变了。" 鸭哥自己加了一句:"这是第一次 agent 私有化,(社交意义上的)个人化。"

鸭哥昨天那篇文章把这件事拆得更细:能干活只是门票,让占有感成立的是部署痕迹。配置 API key、挑模型、设权限、对接飞书或公众号,每一步在产品评价坐标系里都是体验短板,但每一步在社交坐标系里都是通关凭证。技术负担在产品层是负资产,在传播层每多一步就多一份"我跨过了这道门槛"的稀缺信号。

数据上这件事正在成型。CSDN 的 2026 OpenClaw 部署避坑指南 4 月 3 日发布;腾讯云开发者社区 4 月起密集上线一键部署模板,价格压到 24 元/月起;阿里云开发者社区 同期跟进零基础教程;腾讯云另一篇深度拆解 4 月 9 日发布,完整教程 4 月 14 日。一个开源项目在 4 月单月被三家国内主要云厂商的开发者社区做成专题,这个传播密度本身就是社交资产被生产的过程。

把它和 V4-Flash 那条线接起来,会看到私有化的两个前提同时到位。模型层有 V4 这种 open-weight、价格低、agentic-first 的供给,让"自己跑一只 agent"在算账上成立。产品层有 OpenClaw 这种 100% 私有化部署、原生支持多家模型的开源框架,让"自己跑"在工程上成立。Hermes Agent(NousResearch)的口号已经从"拥有一个 assistant"推进到 "the agent that grows with you",方向更清楚:agent 从平台账号变成会跟用户一起积累的对象。

鸭哥的反向数据点也值得记下:他用多个 subagent 同时调研小龙虾时发现"只有 deepseek 觉得小龙虾是个可穿戴硬件"。这是另一种意义上的提醒。Open-weight 模型有自己的代价,instruction following 和工具调用稳定性还在追赶。Open-weight、价格低、本地部署,这三件事同时成立的甜蜜区窗口期已经在打开,但还没到所有任务都能直接迁移过去。

群里张成补了一句很实在的话:"程序员的圈子会比较难感受小龙虾的优点,毕竟大把的 agent 都比小龙虾更强。" 但小龙虾的目标用户在程序员之外。它的核心价值是定时任务和主动推送,把 AI 从"我去问它"换成"它住在我的环境里、按我设定的节奏给我推消息"。这是另一种层面的"我的":占有感的炫耀之外,更底下是关系上的对称转换。

三条线放在一起看:模型供给侧(V4)让私有运行变便宜,工程实践侧(复利文章)让私有运行有积累价值,社交占有侧(小龙虾)让私有运行变成可炫耀的身份。三件事在同一周里几乎同时发生。


也值得知道

Anthropic 估值 9000 亿美元谈判:CNBC 和 Reuters 4 月 29 日同时披露 Anthropic 正在洽谈新一轮融资,估值可能超过 9000 亿美元,已超过 OpenAI 3 月那轮 8520 亿的估值,并可能为最早 10 月的 IPO 铺路。年化收入据报已达 300 亿美元(CNBCReuters)。

Google 接走 Anthropic 拒绝的 Pentagon 合同:4 月 28 日,Google 宣布扩大对 Pentagon 的 AI 接入,承接 Anthropic 此前以安全护栏理由拒绝的部分需求;OpenAI 同期推动其模型进入联邦、州和地方政府机构(TechCrunch)。

OpenAI 更新企业宪章:4 月 28 日,OpenAI 修订了运营六年的原始 charter,把 "we will / we commit" 这类承诺式语言换成更柔性的措辞,去掉了"主要受托责任是对人类"的表述,被解读为对 Anthropic 竞争和 AGI 商业化压力的回应(Business Insider)。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-30: Cursor 一句 Keep Rate,把评估搬到了用户身上 > Cursor 4-30 那篇 agent harness 文里抛出一个新指标 Keep Rate,它不再问 agent 写得对不对,它问你最后留没留这段代码。同一天群里玉伯入群一句"User Context + Harness Engineering 是应用层关键成败",林好喊出"AI 疲倦期"四个信号,群报机器人在公开版被现场注入测试。三件事的暗线是同一件事:评判 AI 的尺子从动作本身搬到了动作之后留没留下东西。 懒人包:Cursor 4-30 在 Continually Improving Our Agent Harness 里公开了 Keep Rate,这个指标和它平行使用的"用语言模型读用户后续回复"一起,把 agent 评测从能力题改成了行为题;它和 Martin Fowler 4 月那篇 Harness Engineering for Coding Agent Users 提的 Guides + Sensors...

[鸭哥 AI 手记] 2026-04-28: 9 个 Connector、20 亿 Manus、110 人封号 > Anthropic 4-28 一口气发布 9 个创意软件 Connector,自家博客开头就先写了一行"Claude can't replace taste or imagination"。同一周里它把另外 110 个人的 Claude 账号一次性连坐封掉,不解释。今天三件事的暗线,是当一组事件第一次砸过来时,圈内的第一反应几乎总是用上一代的框架去接,而真正的信号往往躲在反方向的细节里。 懒人包:Anthropic 4-28 发了 9 个创意工具 Connector(Photoshop、Blender、Ableton、Adobe 全家桶等),群里第一反应是"Adobe、Office 要被灭掉",鸭哥昨天那篇 创意工具的 Agent 化 给出三代演进框架:组件一二早就就位,真正卡住整个领域的是组件三的感知-评估闭环,A 社在这件事上没有不可逾越的护城河。同一天,发改委还在讨论 4-27 否决 Meta 收购 Manus...

[鸭哥 AI 手记] 2026-04-27 > 今天三件事都在重画同一条线:AI 系统能跑多远,主要取决于它被允许穿过谁的边界。Manus 撞上的是国家边界,企业 agent 撞上的是公司内网,DeepSeek V4 撞上的是芯片供应链。能力越强的玩家,被边界绊住得越早。 懒人包:发改委今天否决了 Meta 用约 $2B 整体收购 Manus 的交易,并要求撤销,是 2021 年《外商投资安全审查办法》生效以来第一个公开走完"禁止+撤销"流程的案例;Manus 同时也是中国 AI 公司被全球大厂整体收购唯一走到 closing 的一家,两个"第一"是同一家。鸭哥昨天的长文 两个"第一"是同一家:Manus、Meta 与一次没有先例的否决 把这件事放进开曼 vs 新加坡两条离岸路径的对照里讲透。同一天群里围着 OpenAI 那条"永不下班的 AI 员工"宣传转发,马工一句"不能跑在本地电脑的 agent,没毛用"把热度按下去;鸭哥补一句"本地化必须驻场工程师支持",把硅谷正在偷偷扩招的 Forward Deployed Engineer 这条线点出来了。 走得最远的人最先撞上规则...