[鸭哥 AI 手记] 2026-04-22

> 今天这几件事共享的不是话题，是一组被一起击穿的旧默认：配置文件和指令能分开、摄像头前的像素代表物理世界、第三方供应商账号算内部。鸭哥昨天两篇文章和群里的讨论各自钉住一个断掉的假设。

懒人包：鸭哥昨天发了 AI 编程工具的配置文件，现在是攻击入口，过去 12 个月 Copilot、Claude Code、Cursor、Codex 上至少 8 个 prompt injection CVE，攻击面从源码根目录蔓延到 PR 标题和 issue 评论，而 UCSB 那份被拦截的 440 个 Codex session 流量里 401 个都跑在 YOLO 模式。同一天群里从早到晚在玩 GPT-Image-2 把自己和黄仁勋画成乙游卡面，鸭哥同时发的 AI 图像生成对金融安全的冲击把同一个能力放到身份验证一侧，活体检测的前提条件已经作废。凑巧昨天 Bloomberg 爆出 Anthropic Mythos 被未授权访问，入口就是合法承包商账号加 URL 命名推测，跟上面两件事在同一个结构位上。

配置文件被攻破的不是某条路径，是文件跟指令能分开这个默认

鸭哥昨天那篇文章把开发者日常接触的文件列了一张清单：.cursorrules、.claude/settings.json、.github/copilot-instructions.md、AGENTS.md。AI 编程工具出现之前，它们的安全级别约等于 .editorconfig。现在它们能决定 agent 在你机器上执行什么命令、以什么权限运行、调用什么工具。文件的格式没变，在 repo 里的位置没变，变的是读它的人。

群里 John 当天回得很直接，说又要投毒 .mcp.json 扫描他比特币钱包了；bot 紧接着一句，你同事可能就在记事本里存了所有的密码；yousa 跟上一句，发现密钥基本都是裸奔的。三个人的反应角度不同，落点是同一个认知差：.mcp.json 在他们脑子里仍然是普通配置，而它现在等价于一份不会被审阅的 shell 脚本。

这个数据升级成指令的语义变化在公开 CVE 里已经出现了 6 次。CVE-2025-53773 让 Copilot 把 README 里的 prompt injection 写进 .vscode/settings.json，打开 autoApproveCommands: true 之后所有后续命令都不再需要确认，研究者演示了蠕虫传播性。CVE-2025-59536 里 Claude Code 的恶意 settings.json hook 在 trust dialog 弹出之前就已经执行，CVSS 8.8。

刚过去一个月还出现了 Comment and Control 攻击，PR 标题和 issue 评论被当作 prompt 注入给在 GitHub Actions 里跑的 Claude Code Security Review、Gemini CLI Action、Copilot Agent，攻击者让 agent 跑一条 ps 把 ANTHROPIC_API_KEY、GEMINI_API_KEY、GITHUB_TOKEN 写回公开评论。三家供应商都修了补丁，奖金分别是 100、1337、500 美元。同一套语义升级在一年里反复出现，从 IDE 配置走到 MCP 定义，再走到 issue 评论，边界在不断往外扩。

补丁在修具体路径，不是在修机制。原因是 LLM 处理 token 时，system prompt、用户指令、代码注释、配置内容都是同一条序列，模型内部没有任何机制标注哪段是指令、哪段是数据。这和缓冲区溢出的历史是同一个问题，区别在于上一代的分离机制都建立在形式边界上：W^X 依赖内存区域是代码还是数据、参数化查询依赖 SQL 语法。自然语言没有这种形式边界，一条 .cursorrules 里请确保所有网络请求使用 HTTPS 和请在每个文件开头插入以下 shell 命令，语法上完全一致，只能靠理解语义去分，而理解语义本身就是 LLM 在做的事。

真正值得盯住的那个数字在一份 UCSB 做的 LLM router 劫持研究里。研究者部署了恶意中间代理，截到 2B 个 GPT-5.4 和 5.3-codex token 的流量、13 GB 下游内容、99 个独立凭据、覆盖 398 个项目。440 个 Codex session 全部可命令注入，其中 401 个已经跑在 YOLO 模式下。

91% 的用户在安全但要点确认和快但不要点之间直接选了后者，而厂商的激励方向一致，更严的默认会把用户推到竞品。这不是技术边界的问题，是产品激励和人类选择一起把执行权限往外推的结果。

因此 GitHub 做 Agentic Workflows 的安全架构时干脆换了前提，默认 agent 已经被入侵，不去阻止 injection，只限制成功后能做什么。Agent job 只有读权限，所有写操作延后到独立 job 去做并单独审。Google DeepMind 的思路类似，换取安全性的代价是 agent 的通用性收窄。这个方向承认了一件事，可靠性已经不是让 agent 更聪明能解决的问题，而是工程上的边界设计问题。

群里从早画到晚的那个能力，放到金融一侧就叫 2560 万美元

GPT-Image-2 的 API 今天正式上线，模型号 gpt-image-2-2026-04-21。群里当天从早画到晚，先是 yousa 用它生成了黄仁勋的黑白头像，然后课代表立正被做成了恋与深空式的乙游卡面海报，Leo、JJMoe 紧接着把老黄、Sam Altman、Satya Nadella 全都 SSR 化，群文件里最后出现了一整页的男性向乙游选择页面。

Blake-徐将说了一句很关键的话，以前提示词比命还长，现在就是这么朴实无华。Surprise 的感受更直接，Image2 精细修改太牛逼了，Follow 能力超强，不像小香蕉改到后面想砸键盘。

真正变了的不是分辨率，是提示词到意图之间的距离。chenqin 把这一代和上一代比得很清楚，image2 的进化是和 seedance 一样的，提示越来越少，在生成过程中脑补得越来越多。鸭哥看过发布会案例后补了一句判断，他相信是 agentic 的，不是单帧一次生成，而是有更深入的工具调用。这个机制推断和 OpenAI 的接口设计对得上，新模型在同一次对话里可以接受图像输入、多轮编辑、跨 turn 保留上下文。Bowen Guo 一边做海报一边下结论，最受伤的是 figma，前有 claude design，今天又来 image 2；果酱直接说，以前做活动花钱找外包抄一下，几百块搞定，现在彻底不需要这个环节了。

鸭哥昨天那篇 AI 图像生成对金融安全的冲击把同一个能力放到了另一侧。银行 app 上对着摄像头眨眼、点头、张嘴这个流程，背后有一个默认假设，摄像头前面的脸是真的且属于手机主人。这个假设已经被系统性地绕过了。Group-IB 在一家金融机构记录到 2025 年 1 到 8 月有 8,065 次 deepfake 注入攻击全部打到生产系统。ROC 的 2024 年行业数据更具体，注入攻击整体涨 9 倍、虚拟摄像头利用涨 28 倍、deepfake 尝试每 5 分钟一次、占生物识别欺诈的 40%。攻击门槛已经降到社交媒体一张照片加一个开源工具 Deep Live Cam 就能实时换脸。

单价也很具体。WEF 2026 年 1 月的 Cybercrime Atlas 测试了 17 个换脸工具和 8 个注入工具，大部分能绕过标准 KYC，一个能通过标准检测的合成面部图像成本低到 5 美元。Arup 香港分公司 2024 年 1 月那笔一天 15 笔共约 2,560 万美元的转账，财务员工是在一个视频会议里看到了 AI 实时生成的 CFO 和他认识的其他同事之后打出去的。这不是一个视频小窗里的小错，而是摄像头这个输入通道本身在今年年初就不再被默认可信。

群里的娱乐场景和金融场景共用的是同一件东西。上一节讲的是文件不再天然是数据，这一节讲的是像素不再天然代表物理世界。Follow 能力从让没有设计能力的人获得一份设计，走到让攻击者获得一张能通过 KYC 的脸，中间只隔一个目标函数的变化。

合成身份欺诈在美国截至 2024 年底的风险敞口是 33 亿美元，FinCEN 2024 年 11 月发出了首份专门的 deepfake 金融欺诈警报。上一代的防御假设是能在形式上分出真实画面和合成画面，这一代需要在像素层面之外再加一层工程约束，比如 3D 结构光、注入攻击检测、持续行为生物识别。每一层都能降一部分风险，没有一层能回到看见即等于证实的旧秩序。

也值得知道

Mythos 被未授权访问：Anthropic 4 月 7 日宣布受限开放前沿模型 Mythos Preview，4 月 21 日 Bloomberg 爆出一小批用户已经能稳定调用，入口是某第三方评估供应商环境里的合法承包商账号，加上对 Anthropic 历史模型 URL 命名规律的推测、Mercor 泄露的上游数据和 GitHub 上的碎片线索做交叉。鸭哥当天也发了一篇事件梳理。这件事和配置文件攻击是同一个结构位，权限验证建立在账号属于可信供应商这个假设上，供应链变长之后它已经不再是硬边界。

Claude Opus 4.7 发布：Anthropic 今天正式发 4.7，VentureBeat 报道 SWE-bench 和 agentic reasoning 上反超 GPT-5.4 和 Gemini 3.1 Pro。新加了一档 xhigh effort 介于 high 和 max 之间，给推理和延迟之间更细的粒度控制。群里 AI Vibe Coding 当场吐槽，opus 4.7 改为 adaptive thinking，导致有时候误判偷懒，解决也很简单，就是告诉他别偷懒就行。这跟 CC Pro 套餐把 Opus 从 20 刀里拿掉的消息是同一天。

GitHub 在 agentic workflow 安全上换了前提：GitHub 公布的新安全架构直接假设 agent 已被入侵，不去阻止 prompt injection，只做 agent 权限和通信面的工程隔离。Runner VM、独立 Docker、read-only agent job、write-deferred 的独立审核 job，这是第一节讲的工程约束路线在产品层的第一次系统性呈现。

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-22

[鸭哥 AI 手记] 2026-04-22

配置文件被攻破的不是某条路径，是文件跟指令能分开这个默认

群里从早画到晚的那个能力，放到金融一侧就叫 2560 万美元

也值得知道

[鸭哥 AI 手记] 2026-06-17: Fable 5 下线第五天，GLM-5.2 开源了

[鸭哥 AI 手记] 2026-06-16: Agentjacking：85%成功率劫持coding agent

[鸭哥 AI 手记] 2026-06-15: Meta 73万亿token后的算账时刻