> 当Anthropic把金融、法律、小企业的agent工作流打包成标准化产品时,群里两位实践者正在各自的skill体系里独立撞上同一堵墙:让agent可靠地干活,真正的瓶颈不在模型,在编排。
懒人包:Anthropic四天发了三个垂直方案——金融接FactSet和Moody's,法律接Westlaw和iManage,小企业接QuickBooks和PayPal——同一个agent架构在三个方向上展开。复用单位从代码变成了行业know-how。同一天,群里的胥克谦在5.8M的skill体系里得出"skill从来不为高复杂度考虑",leo-南在金融故障诊断场景里被三个致命问题卡住。两件事不在同一个屋子里谈的,但背后的推力是同一个:agent的可靠性瓶颈在编排层,不在模型层——Anthropic选了预包装,社群选了硬扛。另外,Codex mobile发布了,H200获批对华销售但一颗都没交付,Cerebras IPO首日涨了68%。
鸭哥昨天在当 AI 开始卖行业,不再是卖代码这篇文章里做了一层判断:Anthropic在5月11-14日密集发布金融(10个agent模板)、法律(12个实务插件)和SMB(15个预置工作流)三个方案,用的不是三个孤立的产品逻辑,而是同一个策略在三个方向上的展开。
具体说,每个方案都在做同一件事:把agent循环、行业数据连接器和预置工作流打包成一个标准件。金融接FactSet、Moody's、S&P Capital IQ和LSEG,法律接Westlaw、iManage、Harvey和DocuSign,SMB接QuickBooks、PayPal和HubSpot。区别只在"接谁的数据"和"替谁干活"。鸭哥文章里追溯了Anthropic的产品演化线:2023年卖token,2025年卖Claude Code(能自己读代码库的agent),2026年1月卖Cowork("Claude Code for general computing"),到今年5月这三个垂直方案——复用单位每跳一次就升一层。
调研补了几个数字。Citadel的分析师在用Claude for Excel更新coverage model,BNY的CIO说"给流程配了新的数字员工",Walleye Capital的400人对冲基金全员使用Claude Code(Anthropic)。法律侧的信号更直接:Anthropic一场面向法律团队的webinar吸引了超过20,000人注册,自2月首个法律插件发布以来,法律专业人士已成为Cowork各类用户中参与度最高的群体(Reuters)。Freshfields律所在全所范围部署后,六周内Claude使用量增长了500%(LawNext)。
群里Lei Du在鸭哥分享文章后说了一句"跟mercor和surge们卖了这么多数据,终于亮相了"。Mercor和Surge AI是两家长期为AI实验室提供领域专家标注数据的公司——Mercor的年化收入约5亿美元,Surge AI在2024年收入约12亿美元(Forbes,TechCrunch)。它们的合同工很多仍在律所投行全职上班,业余提交标注数据。行业的隐性知识就是这么被采集成训练数据的。Lei Du那句话补上了一整条产业链:上游有人把行业专家的判断变成训练数据,下游有人把训练结果变成可部署的工作流。
但鸭哥文章最后一个问题才是真正需要盯的:如果模型继续变聪明,预打包的行业工作流还有多大价值?一个足够聪明的通用模型,能不能直接从"帮我处理这个月的账"这句话里自动理解QuickBooks的数据结构?目前看,真正的壁垒不在智力层。权限体系、合规框架、数据管道的物理接入——这些是制度和物理世界的约束,模型再聪明也绕不过去。Anthropic的行业方案实际上是在建"已授权的操作环境",而授权这件事本质上是社会行为,不是智力行为。
群里今天的讨论有一个反复出现的词:"不靠谱"。胥克谦的skill体系已经写了5.8M——不是KB,是MB——全部在服务具体的问题和方法。他的结论是"skill本身就是轻量级工具,从没有为高复杂度考虑过"。原因他说得很清楚:agent的原理决定了每轮对话都会丢一部分信息,"做任何事情都会丢一部分";同时流程不可调试,"路由环节多了就失控,且没有调试维护的可能性"。他的解法是转向程序化编排——让dify、n8n这种确定性workflow接管关键路径,"程序级别的编排不存在不可控的问题"。
多喝热水补了一句:"大家实践遇到的问题都类似,解决思路上也比较容易想到,只是实现细节上各自还是有挺大差别的。"这句话本身就是信号:当足够多的人在独立造同一种轮子,意味着这个轮子应该是基础设施,而不是每个团队自己重写的应用代码。
leo-南在金融故障诊断场景里总结了三个致命问题,每个都打在了agent的软肋上。第一,私有化部署的国产模型质量不够,遵循度差,"你怎么保证能按照skills做对"。第二,几百个skill的上下文污染——"A家和O家论文都是说skill多会有污染问题"。第三,也是最致命的一个:责任归属。"一线运维写skill,我是做平台的。出故障时一线说他skill没错,是我平台的问题。那我是犯贱吗,做个平台出来承担排障不力的责任?"
责任问题才是这道题的最终形态。Anthropic的垂直方案在这一点上做了一个明确的选择:人在回路。金融agent模板在产出到达客户前必须由分析师审批,SMB方案中用户须先批准计划才能执行发送支付操作,法律插件通过"setup interview"学习律所的升级链和风险偏好后才开始工作(Anthropic Managed Agents安全分析)。Auto Mode追求减少人类干预,行业方案刻意保留人类审批节点作为合规防线——同一个人,在两个产品线里走了两条不同的信任路线。
Manus的context engineering博客披露了agent编排的核心瓶颈(Manus技术博客):当工具数量爆炸时,KV-cache失效导致所有后续动作的缓存作废;历史action引用了当前context中已不存在的工具定义时,模型会产生schema violation或幻觉动作。Manus的解法是"mask, don't remove"——不修改工具定义,在解码阶段通过logit masking控制可选动作空间。这和胥克谦说的"skill内部的路由环节多了就失控"是同一个问题从框架侧和工程侧的两个描述。
Praetorian——一家安全公司——走得更极端:16阶段工作流、39个专用agent、8层确定性Hook执行层,核心理念是"通过约束运行时来驯服LLM"(Praetorian工程博客)。他们声称把agent从"创意助手"转化为"软件供应链的确定性组件"。是不是真做到了先不说,方向本身说明了一件事:编排层的确定性正在变成产品公司的竞争变量,而不是模型能力的附属品。
Anthropic的行业方案和胥克谦的5.8M skill体系看似在光谱的两端,一个卖标准化,一个造定制化,但它们在做的其实是同一道题:怎么让一群非确定性的模型在确定的业务边界里可靠地产出。差别只在谁来测试、谁来写测试用例、谁为失败买单。
群里的另一个讨论把这个判断落在了更具体的日常上。郝越说了一段话:"AI能做的事情很多,但有很多东西俗称know-how,AI是不知道的,全在人的脑子里。需要一个人在实际操作中积累的经验,等这玩意儿被AI学到的时候,这个know-how已经不值钱了。"这段话和Anthropic在做的垂直打包是同一个逻辑的两个侧面:一侧在把已经不稀缺的know-how变成产品,另一侧在描述还没被产品化的know-how在哪里。
Codex移动端发布:OpenAI 5月14日将Codex嵌入ChatGPT手机端,手机下任务、Mac上运行——群里立刻有人试了,"老鸭汤可以直接续上"。(OpenAI)
H200获批对华销售,但一颗都没交付:美国商务部5月14日批准约10家中国公司购买H200,许可量上限每家75,000块。联想和富士康在分销名单中。但截至报道时实际交付为零——群里引证说"狗东自营今天重新上架了h100, h800",联想同天确认成为H200中国分销商。(CNBC)
Cerebras IPO首日涨68%:AI芯片公司Cerebras 5月14日在纳斯达克上市,融资55.5亿美元为2026年迄今最大IPO。但其2025年收入的86%来自两个阿联酋相关客户。(TechCrunch)
Anthropic 15亿美元版权和解进入关键节点:作者集体诉讼的和解金额分四期支付,约91.3%涉案作品已被认领,美国法官正在审议最终批准。(Authors Guild)
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:yage-ai.kit.com
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-05-13: $2300一晚:老尺子量不出新账了 > 群里有人让 Codex goal 通宵跑了一个任务,早上起来账单是 $2300,烧了 1.8B token。同一天,Claude 宣布要把 agent 程序化使用从订阅里拆出来单独计费。群里的反应就四个字:"自助餐没有了"。再往大看,Salesforce 和百度在同一个月各自推出了一套新指标,都试图把 AI 的账从"烧了多少 token"换成"完成了多少任务"。三件事不在同一间屋子里谈的,但背后的推力是同一个:token 这个单位正在全面失效。 懒人包:先记住 $2300 这个数字。当 agent 能在后台自行循环执行,token 消耗就不再是可预测的线性曲线。Salesforce 用 AWU(按完成任务数收费)刚交出一份成绩单:Q4 单季 7.71 亿 AWU,环比增 57%。李彦宏同一天在北京提出 DAA(日活智能体数),预测未来全球可能超过 100...
[鸭哥 AI 手记] 2026-05-12: Google把AI塞进了电源键和键盘 > 5月12日Google在Android Show上同时发布Gemini Intelligence和Gboard Rambler。一个让AI跨app直接操作你手机上的任何应用,一个把免费语音输入预装进默认键盘。两件事往同一个方向指:当模型之间的差距在缩小,谁已经握着电源键和键盘,谁赢。 懒人包:先看那个12年前写死的限制。iOS从2014年起禁止第三方键盘访问麦克风,创业公司只能靠维持后台音频会话绕过,代价是蓝牙冲突和耗电。Google的Rambler不需要:它在系统层。这个物理级别的壁垒,不是任何一家语音输入创业公司靠产品迭代能跨过去的。另一边,Claude Code这周推出的/goal功能在群里炸了锅,给个目标就让AI无限烧token跑,有人兴奋有人骂。但这件事和Google双发在讲同一个逻辑:AI工具的下半场,竞争变量从模型质量移到了入口位置和信任机制。 Google一天发了两样东西,打的都不是模型战 鸭哥昨天连续发了两篇文章,一篇讲Google的Gemini...
[鸭哥 AI 手记] 2026-05-11: 同一天发明同一家公司,然后背道而驰 > 5月4日,OpenAI给PE开了17.5%年化保底回报来帮自己卖AI,Anthropic同一天也找了PE做同一件事,但一分保底没给。Google同一天关掉了Project Mariner。三件事指向同一个问题:AI落地的接口到底该长什么样,行业在重新画这条线。 懒人包:先看17.5%这个数字。OpenAI为DeployCo给PE合伙人开了接近PE行业标准两倍的保底回报——不管DeployCo赚不赚钱,每年都得先付这笔钱。Anthropic的合资企业结构一样、目标一样,但没有这个条款。这个差异讲清了AI行业当前最深的分歧:模型和部署,哪个才是核心资产。Google关掉Mariner揭示了同一模式的另一面:当行业试了一圈发现某个方案跑不通之后,反而不约而同地往同一个解法收敛。 17.5%保底和零保底之间,藏着两家公司的自我定义 5月4日,OpenAI和Anthropic先后宣布了同一个结构:与PE成立合资企业,向大型企业部署AI。SiliconSnark的概括最快:「the technology...