[鸭哥 AI 手记] 2026-06-08: 何恺明新作：画图模型打败三个专家

懒人包：Google DeepMind 的 Vision Banana 用一个只会画图的模型，在分割、深度估计、表面法线三个基准上同时超过了 SAM 3、Depth Anything 3 和 Lotus-2。没改架构，只换了提示词。ResNet 发明人何恺明和 DiT 框架联合作者谢赛宁以 leadership sponsor 身份参与。同一天，群里爆发了一场关于 agent 系统到底能不能调试的争论，实测数字是 agent 任务收敛需要 50-150 轮复检，传统代码只要 3-5 轮。两件事指向同一个矛盾：LLM 让它强大的是概率性，让它难搞的也是概率性。

一个只会画图的模型，同时打败了三个领域专家

鸭哥昨天在 Vision Banana：生成即理解终于来到视觉领域里拆了一篇 Google DeepMind 的新论文。论文做了一件反直觉的事：把语义分割、度量深度估计、表面法线估计全部重新定义为图片生成任务。

具体操作很简单。做分割，给模型下指令"把猫耳朵画成橙色，出口标识画成蓝色，背景画成紫色"，然后按颜色聚类出类别。做深度估计，给深度值配一套颜色编码，近处变化剧烈远处一色，拿到生成图后反向查表还原每个像素的距离。论文作者在日本金阁寺用手机拍了张照片，模型预测距离 13.71 米，Google Maps 实测 12.87 米，误差不到 7%。做表面法线更简单，法线三分量天生在 -1 到 1，线性映射到 RGB 就行。

结果：语义分割 Cityscapes mIoU 69.9，高于 SAM 3 的 65.2。度量深度 δ1 0.929，高于 Depth Anything 3 的 0.918。表面法线角度误差 15.549 度，低于 Lotus-2 的 16.558 度。一个模型，一套权重，三个方向，全部超线。

真正重要的不是又多了一个跑分冠军。是训练方式：论文只在 Nano Banana Pro 原有的图像生成训练流里混入了极少比例的视觉任务数据做指令微调。作者相信理解能力已经在生成预训练里了，微调只是教模型把答案按指定格式画出来。这和 NLP 那条路径形成了严格对称：LLM 只学了预测下一个词，规模跑上去之后翻译、摘要、推理、代码全被统一进了一个模型。在视觉领域，这是第一次有人把同一个假设在规模上跑通。

论文当然有边界。推理成本远高于轻量级专用模型，实时应用上专用模型仍更经济（LearnOpenCV 技术解读）。实例分割 pmF1 为 0.540，仍落后于 DINO-X 的 0.552。深度估计训练数据全部来自合成渲染引擎，没用任何真实深度数据。这篇论文的贡献不是工程落地，是为一个争论多年的假设提供了一套干净的可度量证据。

往更大的图景看，这个方向不止影响视觉。过去半年，OpenAI 的 ChatGPT Images 2.0 在实测中整体超过了 Nano Banana Pro（36氪报道），DeepMind 的 Gemini Omni 也在把同一套逻辑往视频和编辑方向推。这些进展拼在一起，指向的不是某一篇论文，是一种范式的系统扩散。视觉任务的分割模型和生成模型在过去二十年走的是两条完全不交叉的路，现在有人用实验数据告诉你：这两条路可能本来就是一条。

群里郝越看完说："apple 在 depth 上之前有个 sota 模型，monocular 重建就是 apple intelligence 演示的那个改视角功能用的，估计 android 也要跟。"

诞生了 LLM 才出现了不可调试的程序

Vision Banana 那个方向是收敛：一个模型统一多个任务。同一天的群聊里，另一条线完全反向：从传统软件到 agentic 系统，可控性在倒退。

争论始于胥克谦的实测数字。同等 TDD 约束下，传统程序代码 3-5 轮复检后就查不出 P0/P1 级别问题，agent 类型任务需要 50-150 轮。他的判断很平："agent 的不可调试特性，暂时无解。"后来补了一句更重的话："5 年前所有的程序代码都是可调试的。诞生了 LLM 才出现了不可调试的程序。"

这句话就是诊断本身。传统程序的可靠性来自过程可追踪：每行指令执行了什么、状态怎么变，debugger 逐行跑一遍。LLM 驱动的 agent 走的是另一条路。胥克谦描述了 170 轮复检的经历，每一轮多 agent 并行、多环节串联，上下文在这 170 轮里被反复压缩、污染、漂移。Ethan 蒋镒珍也从另一个角度呼应："skill 都写的清清楚楚的，但是一会儿能叫到，一会儿叫不到。上下文一旦污染了之后，LLM 就是昏的。"

三和四给了底层解释：自然语言有歧义，形式语言可以严格验证。Agent 指令用的是自然语言，同一句话在模型内部可能触发 A 理解也可能 B 理解。当理解这一步不受控，后续执行就天然带了一重随机性。这重随机和多步循环的复利叠在一起，就是不可调试。他的解法是"把验收标准固化成可执行检查"：别指望调试 agent 的推理路径，去定义什么是对的，然后让 agent 自己跑验证闭环。

这条线和 Anthropic 上周发布的 Dynamic Workflows 逻辑一致：把编排逻辑从 LLM 上下文窗口移到 JavaScript 脚本，能用代码路径解决就不交给 agent（Anthropic Engineering）。更底层也在推进：vLLM 已提供 batch-invariant 确定性推理模式，要求 NVIDIA H100/B100/B200 级硬件，在 H100 上已验证 bit-level 确定性输出（vLLM Batch Invariance）。代价是性能折扣，但对需要精确性的场景，这是第一次在推理层画出了确定性的可实现边界。

胥克谦那组 3-5 轮 vs 50-150 轮的数字指向一个更实际的结论：agentic 系统目前能跑通的领域，是容错空间大的。需要精确性的场景，程序编排仍比 agent 自主决策可靠一个数量级。难度不在于模型不够聪明，在于同一个概率性既是模型的效力来源，也是它和传统软件工程之间那道迈不过的坎。

这层张力在更大的尺度上也在重复。Berkeley 的 MAST benchmark 对 7 个主流多 agent 框架做了系统评估，识别出 14 种独特失败模式（MAST 论文），ChatDev 在 ProgramDev 基准上的正确率只有 33.33%。失败不是随机打散的，而是被组织成了三类：规范与系统设计缺陷、智能体间失调、任务验证与终止缺口。这意味着 agent 的不可靠不是某个实现的问题，是分层架构的问题：每一层都有自己独特的出错方式。

也值得知道

苹果 WWDC 发布全新 Siri AI，股价收跌 1.9%：iOS 27、macOS 27 内置改版 Siri，相机加入 AI 视觉搜索。市场对苹果能否在 OpenAI/Google 夹击中突围存疑（CNBC）。

DeepSeek 首轮融资 74 亿美元，腾讯拟投 100 亿人民币：估值 3500-4000 亿元，从依赖梁文锋量化基金转向外部资本驱动。标志着中国开源模型正式进入资本竞争（Reuters）。

微信开放 AI 生态，小程序可变 AI 技能：微信发布开发者指引，小程序可被微信 AI 以"技能"形式调用，支持自动模式（平台分析源码生成调用能力）和开发模式。美团、携程首批接入。同日与华为、小米等五家手机厂商合作 A2A 协议（36氪、证券时报）。

钉钉前副总裁马锐拉离职发文《置身钉外》：继钉钉 ONE 项目核心 PM 幽素的 7.5 万字复盘后，前钉钉副总裁（wolai 创始人）马锐拉于 6 月 9 日发表《置身钉外》回应，称"越来越难确认是在创造产品还是在消耗身体追赶一个不断前移的节奏"（新浪科技）。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：daily.yage.ai

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-08: 何恺明新作：画图模型打败三个专家

[鸭哥 AI 手记] 2026-06-08: 何恺明新作：画图模型打败三个专家

一个只会画图的模型，同时打败了三个领域专家

诞生了 LLM 才出现了不可调试的程序

也值得知道

[鸭哥 AI 手记] 2026-06-07: 三家AI自动记忆，全被欧洲挡在门外

[鸭哥 AI 手记] 2026-06-06: 130M周下载，撑不起一家公司

[鸭哥 AI 手记] 2026-06-05: Google每月付马斯克9.2亿租GPU