[鸭哥 AI 手记] 2026-04-22


[鸭哥 AI 手记] 2026-04-22

> 今天这几件事共享的不是话题,是一组被一起击穿的旧默认:配置文件和指令能分开、摄像头前的像素代表物理世界、第三方供应商账号算内部。鸭哥昨天两篇文章和群里的讨论各自钉住一个断掉的假设。

懒人包:鸭哥昨天发了 AI 编程工具的配置文件,现在是攻击入口,过去 12 个月 Copilot、Claude Code、Cursor、Codex 上至少 8 个 prompt injection CVE,攻击面从源码根目录蔓延到 PR 标题和 issue 评论,而 UCSB 那份被拦截的 440 个 Codex session 流量里 401 个都跑在 YOLO 模式。同一天群里从早到晚在玩 GPT-Image-2 把自己和黄仁勋画成乙游卡面,鸭哥同时发的 AI 图像生成对金融安全的冲击 把同一个能力放到身份验证一侧,活体检测的前提条件已经作废。凑巧昨天 Bloomberg 爆出 Anthropic Mythos 被未授权访问,入口就是合法承包商账号加 URL 命名推测,跟上面两件事在同一个结构位上。

配置文件被攻破的不是某条路径,是文件跟指令能分开这个默认

鸭哥昨天那篇文章把开发者日常接触的文件列了一张清单:.cursorrules.claude/settings.json.github/copilot-instructions.mdAGENTS.md。AI 编程工具出现之前,它们的安全级别约等于 .editorconfig。现在它们能决定 agent 在你机器上执行什么命令、以什么权限运行、调用什么工具。文件的格式没变,在 repo 里的位置没变,变的是读它的人。

群里 John 当天回得很直接,说又要投毒 .mcp.json 扫描他比特币钱包了;bot 紧接着一句,你同事可能就在记事本里存了所有的密码;yousa 跟上一句,发现密钥基本都是裸奔的。三个人的反应角度不同,落点是同一个认知差:.mcp.json 在他们脑子里仍然是普通配置,而它现在等价于一份不会被审阅的 shell 脚本。

这个数据升级成指令的语义变化在公开 CVE 里已经出现了 6 次。CVE-2025-53773 让 Copilot 把 README 里的 prompt injection 写进 .vscode/settings.json,打开 autoApproveCommands: true 之后所有后续命令都不再需要确认,研究者演示了蠕虫传播性。CVE-2025-59536 里 Claude Code 的恶意 settings.json hook 在 trust dialog 弹出之前就已经执行,CVSS 8.8。

刚过去一个月还出现了 Comment and Control 攻击,PR 标题和 issue 评论被当作 prompt 注入给在 GitHub Actions 里跑的 Claude Code Security Review、Gemini CLI Action、Copilot Agent,攻击者让 agent 跑一条 psANTHROPIC_API_KEYGEMINI_API_KEYGITHUB_TOKEN 写回公开评论。三家供应商都修了补丁,奖金分别是 100、1337、500 美元。同一套语义升级在一年里反复出现,从 IDE 配置走到 MCP 定义,再走到 issue 评论,边界在不断往外扩。

补丁在修具体路径,不是在修机制。原因是 LLM 处理 token 时,system prompt、用户指令、代码注释、配置内容都是同一条序列,模型内部没有任何机制标注哪段是指令、哪段是数据。这和缓冲区溢出的历史是同一个问题,区别在于上一代的分离机制都建立在形式边界上:W^X 依赖内存区域是代码还是数据、参数化查询依赖 SQL 语法。自然语言没有这种形式边界,一条 .cursorrules 里请确保所有网络请求使用 HTTPS 和请在每个文件开头插入以下 shell 命令,语法上完全一致,只能靠理解语义去分,而理解语义本身就是 LLM 在做的事。

真正值得盯住的那个数字在一份 UCSB 做的 LLM router 劫持研究 里。研究者部署了恶意中间代理,截到 2B 个 GPT-5.4 和 5.3-codex token 的流量、13 GB 下游内容、99 个独立凭据、覆盖 398 个项目。440 个 Codex session 全部可命令注入,其中 401 个已经跑在 YOLO 模式下。

91% 的用户在安全但要点确认和快但不要点之间直接选了后者,而厂商的激励方向一致,更严的默认会把用户推到竞品。这不是技术边界的问题,是产品激励和人类选择一起把执行权限往外推的结果。

因此 GitHub 做 Agentic Workflows 的安全架构 时干脆换了前提,默认 agent 已经被入侵,不去阻止 injection,只限制成功后能做什么。Agent job 只有读权限,所有写操作延后到独立 job 去做并单独审。Google DeepMind 的思路类似,换取安全性的代价是 agent 的通用性收窄。这个方向承认了一件事,可靠性已经不是让 agent 更聪明能解决的问题,而是工程上的边界设计问题。


群里从早画到晚的那个能力,放到金融一侧就叫 2560 万美元

GPT-Image-2 的 API 今天正式上线,模型号 gpt-image-2-2026-04-21。群里当天从早画到晚,先是 yousa 用它生成了黄仁勋的黑白头像,然后课代表立正被做成了恋与深空式的乙游卡面海报,Leo、JJMoe 紧接着把老黄、Sam Altman、Satya Nadella 全都 SSR 化,群文件里最后出现了一整页的男性向乙游选择页面。

Blake-徐将说了一句很关键的话,以前提示词比命还长,现在就是这么朴实无华。Surprise 的感受更直接,Image2 精细修改太牛逼了,Follow 能力超强,不像小香蕉改到后面想砸键盘。

真正变了的不是分辨率,是提示词到意图之间的距离。chenqin 把这一代和上一代比得很清楚,image2 的进化是和 seedance 一样的,提示越来越少,在生成过程中脑补得越来越多。鸭哥看过发布会案例后补了一句判断,他相信是 agentic 的,不是单帧一次生成,而是有更深入的工具调用。这个机制推断和 OpenAI 的接口设计对得上,新模型在同一次对话里可以接受图像输入、多轮编辑、跨 turn 保留上下文。Bowen Guo 一边做海报一边下结论,最受伤的是 figma,前有 claude design,今天又来 image 2;果酱直接说,以前做活动花钱找外包抄一下,几百块搞定,现在彻底不需要这个环节了。

鸭哥昨天那篇 AI 图像生成对金融安全的冲击 把同一个能力放到了另一侧。银行 app 上对着摄像头眨眼、点头、张嘴这个流程,背后有一个默认假设,摄像头前面的脸是真的且属于手机主人。这个假设已经被系统性地绕过了。Group-IB 在一家金融机构记录到 2025 年 1 到 8 月有 8,065 次 deepfake 注入攻击全部打到生产系统。ROC 的 2024 年行业数据 更具体,注入攻击整体涨 9 倍、虚拟摄像头利用涨 28 倍、deepfake 尝试每 5 分钟一次、占生物识别欺诈的 40%。攻击门槛已经降到社交媒体一张照片加一个开源工具 Deep Live Cam 就能实时换脸。

单价也很具体。WEF 2026 年 1 月的 Cybercrime Atlas 测试 了 17 个换脸工具和 8 个注入工具,大部分能绕过标准 KYC,一个能通过标准检测的合成面部图像成本低到 5 美元。Arup 香港分公司 2024 年 1 月 那笔一天 15 笔共约 2,560 万美元的转账,财务员工是在一个视频会议里看到了 AI 实时生成的 CFO 和他认识的其他同事之后打出去的。这不是一个视频小窗里的小错,而是摄像头这个输入通道本身在今年年初就不再被默认可信。

群里的娱乐场景和金融场景共用的是同一件东西。上一节讲的是文件不再天然是数据,这一节讲的是像素不再天然代表物理世界。Follow 能力从让没有设计能力的人获得一份设计,走到让攻击者获得一张能通过 KYC 的脸,中间只隔一个目标函数的变化。

合成身份欺诈在美国 截至 2024 年底的风险敞口是 33 亿美元,FinCEN 2024 年 11 月发出了首份专门的 deepfake 金融欺诈警报。上一代的防御假设是能在形式上分出真实画面和合成画面,这一代需要在像素层面之外再加一层工程约束,比如 3D 结构光、注入攻击检测、持续行为生物识别。每一层都能降一部分风险,没有一层能回到看见即等于证实的旧秩序。


也值得知道

Mythos 被未授权访问:Anthropic 4 月 7 日宣布受限开放前沿模型 Mythos Preview,4 月 21 日 Bloomberg 爆出 一小批用户已经能稳定调用,入口是某第三方评估供应商环境里的合法承包商账号,加上对 Anthropic 历史模型 URL 命名规律的推测、Mercor 泄露的上游数据和 GitHub 上的碎片线索做交叉。鸭哥当天也发了 一篇事件梳理。这件事和配置文件攻击是同一个结构位,权限验证建立在账号属于可信供应商这个假设上,供应链变长之后它已经不再是硬边界。

Claude Opus 4.7 发布:Anthropic 今天正式发 4.7,VentureBeat 报道 SWE-bench 和 agentic reasoning 上反超 GPT-5.4 和 Gemini 3.1 Pro。新加了一档 xhigh effort 介于 high 和 max 之间,给推理和延迟之间更细的粒度控制。群里 AI Vibe Coding 当场吐槽,opus 4.7 改为 adaptive thinking,导致有时候误判偷懒,解决也很简单,就是告诉他别偷懒就行。这跟 CC Pro 套餐把 Opus 从 20 刀里拿掉的消息是同一天。

GitHub 在 agentic workflow 安全上换了前提GitHub 公布的新安全架构 直接假设 agent 已被入侵,不去阻止 prompt injection,只做 agent 权限和通信面的工程隔离。Runner VM、独立 Docker、read-only agent job、write-deferred 的独立审核 job,这是第一节讲的工程约束路线在产品层的第一次系统性呈现。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-06-17: Fable 5 下线第五天,GLM-5.2 开源了 懒人包:6 月 12 日美国政府一纸出口管制指令让 Fable 5 全球下线,四天后智谱以 MIT 许可证发布了 GLM-5.2,在 Artificial Analysis Intelligence Index 上拿下 51 分,成为开源模型里综合能力最强的那个。推理模型赛道的博弈焦点,正在从"谁会推理"转向"谁能被访问、花多少钱被访问"。同一天,鸭哥还写了另一件事:AI 系统里积攒的规则会随时间退化,一条半年前就该删除的 workaround,直到昨天还在被每一个新 agent 照搬执行。 Fable 5 下线,GLM-5.2 上线:推理模型的竞争已经从能力烧到了供应链 6 月 9 日 Anthropic 发布 Claude Fable 5,三天后就被美国商务部援引出口管理条例强制下线,原因是 Amazon CEO 向财政部报告其研究人员用 Fable 5 获取了可用于网络攻击的信息(The Guardian)。截至 6 月 17 日,Fable 5 和 Mythos 5...

[鸭哥 AI 手记] 2026-06-16: Agentjacking:85%成功率劫持coding agent 懒人包:Tenet Security 本周披露的 Agentjacking 攻击在 100 多个 coding agent 实例上达到了 85% 成功率。2388 个组织的 Sentry DSN 暴露在外,攻击者不需要攻破任何安全产品,只需要把恶意指令藏进你的 agent 会去读的数据里。同一天鸭哥的另一篇文章分析了为什么命令行 allowlist 挡不住 AI agent,以及 Anthropic 和 OpenAI 不约而同走向的答案——用第二个 AI 审查行为,而不是匹配命令字符串。两件事合在一起,指向同一个底层缺口:agent 的信任模型还没有追上它的能力边界。 你的 Sentry 错误报告,可能不是你的应用产生的 你给 Claude Code 接了一个 Sentry MCP server。几行配置,agent 每天帮你查错误、修 bug。你说"帮我修一下 Sentry 里的未解决问题"。agent 照做了。它通过 MCP 拉到一条错误报告,读到一段 npx...

[鸭哥 AI 手记] 2026-06-15: Meta 73万亿token后的算账时刻 懒人包:Meta员工Ash Bhat在公司内网搭了个排行榜,把85000个同事的AI token消耗全列了出来,RPG风格分级。最猛的那个人30天烧了2810亿token,Zuckerberg和CTO都没进前250。这个排行榜被曝光后立刻下架,但它揭开的盖子收不回去了。同一天,鸭哥发了两篇文章,一篇从Meta的73万亿token账单出发讲AI管理纪律的回归,一篇从两个大厂工程师对AI的相反判断出发讲复杂度的来源。两件事合起来指向同一件事:AI补贴结束后,从组织到个人都在被迫重新算账。不只是钱,更是时间和价值的账。 Meta的73万亿token账单,和Bosworth的两个月反转 Ash Bhat的Claudeonomics排行榜上线两周后被《The Information》曝光,随即主动下架。但数字已经流出:85000人的公司30天消耗了73万亿token,数十亿美元量级。最猛的那个人按公开价粗算约烧了$420万。排行榜分了Token Legend、Session Immortal、Cache...