懒人包:Google DeepMind 的 Vision Banana 用一个只会画图的模型,在分割、深度估计、表面法线三个基准上同时超过了 SAM 3、Depth Anything 3 和 Lotus-2。没改架构,只换了提示词。ResNet 发明人何恺明和 DiT 框架联合作者谢赛宁以 leadership sponsor 身份参与。同一天,群里爆发了一场关于 agent 系统到底能不能调试的争论,实测数字是 agent 任务收敛需要 50-150 轮复检,传统代码只要 3-5 轮。两件事指向同一个矛盾:LLM 让它强大的是概率性,让它难搞的也是概率性。
鸭哥昨天在 Vision Banana:生成即理解终于来到视觉领域 里拆了一篇 Google DeepMind 的新论文。论文做了一件反直觉的事:把语义分割、度量深度估计、表面法线估计全部重新定义为图片生成任务。
具体操作很简单。做分割,给模型下指令"把猫耳朵画成橙色,出口标识画成蓝色,背景画成紫色",然后按颜色聚类出类别。做深度估计,给深度值配一套颜色编码,近处变化剧烈远处一色,拿到生成图后反向查表还原每个像素的距离。论文作者在日本金阁寺用手机拍了张照片,模型预测距离 13.71 米,Google Maps 实测 12.87 米,误差不到 7%。做表面法线更简单,法线三分量天生在 -1 到 1,线性映射到 RGB 就行。
结果:语义分割 Cityscapes mIoU 69.9,高于 SAM 3 的 65.2。度量深度 δ1 0.929,高于 Depth Anything 3 的 0.918。表面法线角度误差 15.549 度,低于 Lotus-2 的 16.558 度。一个模型,一套权重,三个方向,全部超线。
真正重要的不是又多了一个跑分冠军。是训练方式:论文只在 Nano Banana Pro 原有的图像生成训练流里混入了极少比例的视觉任务数据做指令微调。作者相信理解能力已经在生成预训练里了,微调只是教模型把答案按指定格式画出来。这和 NLP 那条路径形成了严格对称:LLM 只学了预测下一个词,规模跑上去之后翻译、摘要、推理、代码全被统一进了一个模型。在视觉领域,这是第一次有人把同一个假设在规模上跑通。
论文当然有边界。推理成本远高于轻量级专用模型,实时应用上专用模型仍更经济(LearnOpenCV 技术解读)。实例分割 pmF1 为 0.540,仍落后于 DINO-X 的 0.552。深度估计训练数据全部来自合成渲染引擎,没用任何真实深度数据。这篇论文的贡献不是工程落地,是为一个争论多年的假设提供了一套干净的可度量证据。
往更大的图景看,这个方向不止影响视觉。过去半年,OpenAI 的 ChatGPT Images 2.0 在实测中整体超过了 Nano Banana Pro(36氪报道),DeepMind 的 Gemini Omni 也在把同一套逻辑往视频和编辑方向推。这些进展拼在一起,指向的不是某一篇论文,是一种范式的系统扩散。视觉任务的分割模型和生成模型在过去二十年走的是两条完全不交叉的路,现在有人用实验数据告诉你:这两条路可能本来就是一条。
群里郝越看完说:"apple 在 depth 上之前有个 sota 模型,monocular 重建就是 apple intelligence 演示的那个改视角功能用的,估计 android 也要跟。"
Vision Banana 那个方向是收敛:一个模型统一多个任务。同一天的群聊里,另一条线完全反向:从传统软件到 agentic 系统,可控性在倒退。
争论始于胥克谦的实测数字。同等 TDD 约束下,传统程序代码 3-5 轮复检后就查不出 P0/P1 级别问题,agent 类型任务需要 50-150 轮。他的判断很平:"agent 的不可调试特性,暂时无解。"后来补了一句更重的话:"5 年前所有的程序代码都是可调试的。诞生了 LLM 才出现了不可调试的程序。"
这句话就是诊断本身。传统程序的可靠性来自过程可追踪:每行指令执行了什么、状态怎么变,debugger 逐行跑一遍。LLM 驱动的 agent 走的是另一条路。胥克谦描述了 170 轮复检的经历,每一轮多 agent 并行、多环节串联,上下文在这 170 轮里被反复压缩、污染、漂移。Ethan 蒋镒珍也从另一个角度呼应:"skill 都写的清清楚楚的,但是一会儿能叫到,一会儿叫不到。上下文一旦污染了之后,LLM 就是昏的。"
三和四给了底层解释:自然语言有歧义,形式语言可以严格验证。Agent 指令用的是自然语言,同一句话在模型内部可能触发 A 理解也可能 B 理解。当理解这一步不受控,后续执行就天然带了一重随机性。这重随机和多步循环的复利叠在一起,就是不可调试。他的解法是"把验收标准固化成可执行检查":别指望调试 agent 的推理路径,去定义什么是对的,然后让 agent 自己跑验证闭环。
这条线和 Anthropic 上周发布的 Dynamic Workflows 逻辑一致:把编排逻辑从 LLM 上下文窗口移到 JavaScript 脚本,能用代码路径解决就不交给 agent(Anthropic Engineering)。更底层也在推进:vLLM 已提供 batch-invariant 确定性推理模式,要求 NVIDIA H100/B100/B200 级硬件,在 H100 上已验证 bit-level 确定性输出(vLLM Batch Invariance)。代价是性能折扣,但对需要精确性的场景,这是第一次在推理层画出了确定性的可实现边界。
胥克谦那组 3-5 轮 vs 50-150 轮的数字指向一个更实际的结论:agentic 系统目前能跑通的领域,是容错空间大的。需要精确性的场景,程序编排仍比 agent 自主决策可靠一个数量级。难度不在于模型不够聪明,在于同一个概率性既是模型的效力来源,也是它和传统软件工程之间那道迈不过的坎。
这层张力在更大的尺度上也在重复。Berkeley 的 MAST benchmark 对 7 个主流多 agent 框架做了系统评估,识别出 14 种独特失败模式(MAST 论文),ChatDev 在 ProgramDev 基准上的正确率只有 33.33%。失败不是随机打散的,而是被组织成了三类:规范与系统设计缺陷、智能体间失调、任务验证与终止缺口。这意味着 agent 的不可靠不是某个实现的问题,是分层架构的问题:每一层都有自己独特的出错方式。
苹果 WWDC 发布全新 Siri AI,股价收跌 1.9%:iOS 27、macOS 27 内置改版 Siri,相机加入 AI 视觉搜索。市场对苹果能否在 OpenAI/Google 夹击中突围存疑(CNBC)。
DeepSeek 首轮融资 74 亿美元,腾讯拟投 100 亿人民币:估值 3500-4000 亿元,从依赖梁文锋量化基金转向外部资本驱动。标志着中国开源模型正式进入资本竞争(Reuters)。
微信开放 AI 生态,小程序可变 AI 技能:微信发布开发者指引,小程序可被微信 AI 以"技能"形式调用,支持自动模式(平台分析源码生成调用能力)和开发模式。美团、携程首批接入。同日与华为、小米等五家手机厂商合作 A2A 协议(36氪、证券时报)。
钉钉前副总裁马锐拉离职发文《置身钉外》:继钉钉 ONE 项目核心 PM 幽素的 7.5 万字复盘后,前钉钉副总裁(wolai 创始人)马锐拉于 6 月 9 日发表《置身钉外》回应,称"越来越难确认是在创造产品还是在消耗身体追赶一个不断前移的节奏"(新浪科技)。
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:daily.yage.ai
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-06-07: 三家AI自动记忆,全被欧洲挡在门外 懒人包:OpenAI 6 月 4 日发布了 Dreaming V3,让 ChatGPT 在后台自动读你的全部聊天历史、合成一份用户画像,不问不确认。96% 的记忆是系统单方面创建的。然后 OpenAI 把这项功能对欧洲全面禁用了。Google 的 Personal Context 没开欧洲,Anthropic 的 AutoMemory 也没开。三家做自动记忆的公司,三家在欧洲集体缺席。同一周,鸭哥发了另一篇拆解 Claude Design 插件的文章,发现 Anthropic 让 AI 做好设计的秘密不是更强的模型,而是把评价体系拆成六个独立的认知单元。两件事放在一起,指向同一个结论:让 AI 真正变好的,不是模型多聪明,而是约束够不够清晰。 一个不可能合规的产品 鸭哥昨天在 ChatGPT Dreaming V3 的合规死结 里讲了一个悖论。Dreaming V3 让自动记忆变好的三个机制——不问用户就启动、后台静默合成、跨会话持续演化,恰好是 EU AI Act 和 GDPR...
[鸭哥 AI 手记] 2026-06-06: 130M周下载,撑不起一家公司 懒人包:Vite 每周被下载 1.3 亿次,背后的 VoidZero 公司却攒不出一个商业模式,最终被 Cloudflare 收购。这已经是 10 个月内第三次同类收购:Bun 归了 Anthropic,Astro 归了 Cloudflare。三条同样的弧线指向同一个事实:在 AI 时代,开源工具创造了海量价值,但捕获价值的路径需要平台能力而非工具本身。同一周,钉钉 One 的 7.5 万字离职复盘揭示了一个更深的版本:当你选了错的框架去问问题,执行再好也只是加速撞墙。 开源工具链的第三次投降 6 月 4 日,Cloudflare 宣布收购 VoidZero。这个名字做前端的未必听说过,但它的产品覆盖了前端工具链的大半壁江山:Vite 周下载 1.29 亿次,Vitest 是 Node.js 生态增长最快的测试框架,Oxc 用 Rust 重写了 JS 语法解析,比 ESLint 快 50 倍以上。所有项目保持 MIT 开源许可,Cloudflare 另设 100 万美元独立生态基金(官方 PR)。...
[鸭哥 AI 手记] 2026-06-05: Google每月付马斯克9.2亿租GPU 懒人包:Google 每个月向 SpaceX 支付 9.2 亿美元租用约 11 万块 GPU,租期 32 个月,总价约 300 亿美元。这些 GPU 所在的 xAI 数据中心,靠的是马斯克以"马戏团临时建筑"名义绕过了环评审批。同一周,Vercel 的四层 AI 全栈路线图和 Cloudflare 收购 VoidZero 也在确认同一件事:AI 产业的竞争焦点,正在从模型能力下沉到基础设施控制权。掌握了计算供应和开发平台整合的人,掌握了下一阶段的定价权。 算力战争的真实成本 Google 在 6 月 5 日确认了一笔交易:每月向 SpaceX 支付 9.2 亿美元,租用约 11 万块 NVIDIA GPU,从今年 10 月连续租到 2029 年 6 月,总价约 300 亿美元(CNBC)。此前 Anthropic 已经租走了 Colossus 1 的全部算力,月租 12.5 亿美元。Sundar Pichai 上个月刚刚承认 Google 在 agentic coding 领域落后于...