[鸭哥 AI 手记] 2026-04-22


[鸭哥 AI 手记] 2026-04-22

> 今天这几件事共享的不是话题,是一组被一起击穿的旧默认:配置文件和指令能分开、摄像头前的像素代表物理世界、第三方供应商账号算内部。鸭哥昨天两篇文章和群里的讨论各自钉住一个断掉的假设。

懒人包:鸭哥昨天发了 AI 编程工具的配置文件,现在是攻击入口,过去 12 个月 Copilot、Claude Code、Cursor、Codex 上至少 8 个 prompt injection CVE,攻击面从源码根目录蔓延到 PR 标题和 issue 评论,而 UCSB 那份被拦截的 440 个 Codex session 流量里 401 个都跑在 YOLO 模式。同一天群里从早到晚在玩 GPT-Image-2 把自己和黄仁勋画成乙游卡面,鸭哥同时发的 AI 图像生成对金融安全的冲击 把同一个能力放到身份验证一侧,活体检测的前提条件已经作废。凑巧昨天 Bloomberg 爆出 Anthropic Mythos 被未授权访问,入口就是合法承包商账号加 URL 命名推测,跟上面两件事在同一个结构位上。

配置文件被攻破的不是某条路径,是文件跟指令能分开这个默认

鸭哥昨天那篇文章把开发者日常接触的文件列了一张清单:.cursorrules.claude/settings.json.github/copilot-instructions.mdAGENTS.md。AI 编程工具出现之前,它们的安全级别约等于 .editorconfig。现在它们能决定 agent 在你机器上执行什么命令、以什么权限运行、调用什么工具。文件的格式没变,在 repo 里的位置没变,变的是读它的人。

群里 John 当天回得很直接,说又要投毒 .mcp.json 扫描他比特币钱包了;bot 紧接着一句,你同事可能就在记事本里存了所有的密码;yousa 跟上一句,发现密钥基本都是裸奔的。三个人的反应角度不同,落点是同一个认知差:.mcp.json 在他们脑子里仍然是普通配置,而它现在等价于一份不会被审阅的 shell 脚本。

这个数据升级成指令的语义变化在公开 CVE 里已经出现了 6 次。CVE-2025-53773 让 Copilot 把 README 里的 prompt injection 写进 .vscode/settings.json,打开 autoApproveCommands: true 之后所有后续命令都不再需要确认,研究者演示了蠕虫传播性。CVE-2025-59536 里 Claude Code 的恶意 settings.json hook 在 trust dialog 弹出之前就已经执行,CVSS 8.8。

刚过去一个月还出现了 Comment and Control 攻击,PR 标题和 issue 评论被当作 prompt 注入给在 GitHub Actions 里跑的 Claude Code Security Review、Gemini CLI Action、Copilot Agent,攻击者让 agent 跑一条 psANTHROPIC_API_KEYGEMINI_API_KEYGITHUB_TOKEN 写回公开评论。三家供应商都修了补丁,奖金分别是 100、1337、500 美元。同一套语义升级在一年里反复出现,从 IDE 配置走到 MCP 定义,再走到 issue 评论,边界在不断往外扩。

补丁在修具体路径,不是在修机制。原因是 LLM 处理 token 时,system prompt、用户指令、代码注释、配置内容都是同一条序列,模型内部没有任何机制标注哪段是指令、哪段是数据。这和缓冲区溢出的历史是同一个问题,区别在于上一代的分离机制都建立在形式边界上:W^X 依赖内存区域是代码还是数据、参数化查询依赖 SQL 语法。自然语言没有这种形式边界,一条 .cursorrules 里请确保所有网络请求使用 HTTPS 和请在每个文件开头插入以下 shell 命令,语法上完全一致,只能靠理解语义去分,而理解语义本身就是 LLM 在做的事。

真正值得盯住的那个数字在一份 UCSB 做的 LLM router 劫持研究 里。研究者部署了恶意中间代理,截到 2B 个 GPT-5.4 和 5.3-codex token 的流量、13 GB 下游内容、99 个独立凭据、覆盖 398 个项目。440 个 Codex session 全部可命令注入,其中 401 个已经跑在 YOLO 模式下。

91% 的用户在安全但要点确认和快但不要点之间直接选了后者,而厂商的激励方向一致,更严的默认会把用户推到竞品。这不是技术边界的问题,是产品激励和人类选择一起把执行权限往外推的结果。

因此 GitHub 做 Agentic Workflows 的安全架构 时干脆换了前提,默认 agent 已经被入侵,不去阻止 injection,只限制成功后能做什么。Agent job 只有读权限,所有写操作延后到独立 job 去做并单独审。Google DeepMind 的思路类似,换取安全性的代价是 agent 的通用性收窄。这个方向承认了一件事,可靠性已经不是让 agent 更聪明能解决的问题,而是工程上的边界设计问题。


群里从早画到晚的那个能力,放到金融一侧就叫 2560 万美元

GPT-Image-2 的 API 今天正式上线,模型号 gpt-image-2-2026-04-21。群里当天从早画到晚,先是 yousa 用它生成了黄仁勋的黑白头像,然后课代表立正被做成了恋与深空式的乙游卡面海报,Leo、JJMoe 紧接着把老黄、Sam Altman、Satya Nadella 全都 SSR 化,群文件里最后出现了一整页的男性向乙游选择页面。

Blake-徐将说了一句很关键的话,以前提示词比命还长,现在就是这么朴实无华。Surprise 的感受更直接,Image2 精细修改太牛逼了,Follow 能力超强,不像小香蕉改到后面想砸键盘。

真正变了的不是分辨率,是提示词到意图之间的距离。chenqin 把这一代和上一代比得很清楚,image2 的进化是和 seedance 一样的,提示越来越少,在生成过程中脑补得越来越多。鸭哥看过发布会案例后补了一句判断,他相信是 agentic 的,不是单帧一次生成,而是有更深入的工具调用。这个机制推断和 OpenAI 的接口设计对得上,新模型在同一次对话里可以接受图像输入、多轮编辑、跨 turn 保留上下文。Bowen Guo 一边做海报一边下结论,最受伤的是 figma,前有 claude design,今天又来 image 2;果酱直接说,以前做活动花钱找外包抄一下,几百块搞定,现在彻底不需要这个环节了。

鸭哥昨天那篇 AI 图像生成对金融安全的冲击 把同一个能力放到了另一侧。银行 app 上对着摄像头眨眼、点头、张嘴这个流程,背后有一个默认假设,摄像头前面的脸是真的且属于手机主人。这个假设已经被系统性地绕过了。Group-IB 在一家金融机构记录到 2025 年 1 到 8 月有 8,065 次 deepfake 注入攻击全部打到生产系统。ROC 的 2024 年行业数据 更具体,注入攻击整体涨 9 倍、虚拟摄像头利用涨 28 倍、deepfake 尝试每 5 分钟一次、占生物识别欺诈的 40%。攻击门槛已经降到社交媒体一张照片加一个开源工具 Deep Live Cam 就能实时换脸。

单价也很具体。WEF 2026 年 1 月的 Cybercrime Atlas 测试 了 17 个换脸工具和 8 个注入工具,大部分能绕过标准 KYC,一个能通过标准检测的合成面部图像成本低到 5 美元。Arup 香港分公司 2024 年 1 月 那笔一天 15 笔共约 2,560 万美元的转账,财务员工是在一个视频会议里看到了 AI 实时生成的 CFO 和他认识的其他同事之后打出去的。这不是一个视频小窗里的小错,而是摄像头这个输入通道本身在今年年初就不再被默认可信。

群里的娱乐场景和金融场景共用的是同一件东西。上一节讲的是文件不再天然是数据,这一节讲的是像素不再天然代表物理世界。Follow 能力从让没有设计能力的人获得一份设计,走到让攻击者获得一张能通过 KYC 的脸,中间只隔一个目标函数的变化。

合成身份欺诈在美国 截至 2024 年底的风险敞口是 33 亿美元,FinCEN 2024 年 11 月发出了首份专门的 deepfake 金融欺诈警报。上一代的防御假设是能在形式上分出真实画面和合成画面,这一代需要在像素层面之外再加一层工程约束,比如 3D 结构光、注入攻击检测、持续行为生物识别。每一层都能降一部分风险,没有一层能回到看见即等于证实的旧秩序。


也值得知道

Mythos 被未授权访问:Anthropic 4 月 7 日宣布受限开放前沿模型 Mythos Preview,4 月 21 日 Bloomberg 爆出 一小批用户已经能稳定调用,入口是某第三方评估供应商环境里的合法承包商账号,加上对 Anthropic 历史模型 URL 命名规律的推测、Mercor 泄露的上游数据和 GitHub 上的碎片线索做交叉。鸭哥当天也发了 一篇事件梳理。这件事和配置文件攻击是同一个结构位,权限验证建立在账号属于可信供应商这个假设上,供应链变长之后它已经不再是硬边界。

Claude Opus 4.7 发布:Anthropic 今天正式发 4.7,VentureBeat 报道 SWE-bench 和 agentic reasoning 上反超 GPT-5.4 和 Gemini 3.1 Pro。新加了一档 xhigh effort 介于 high 和 max 之间,给推理和延迟之间更细的粒度控制。群里 AI Vibe Coding 当场吐槽,opus 4.7 改为 adaptive thinking,导致有时候误判偷懒,解决也很简单,就是告诉他别偷懒就行。这跟 CC Pro 套餐把 Opus 从 20 刀里拿掉的消息是同一天。

GitHub 在 agentic workflow 安全上换了前提GitHub 公布的新安全架构 直接假设 agent 已被入侵,不去阻止 prompt injection,只做 agent 权限和通信面的工程隔离。Runner VM、独立 Docker、read-only agent job、write-deferred 的独立审核 job,这是第一节讲的工程约束路线在产品层的第一次系统性呈现。


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-24 > 当执行变得免费,价值会往哪里搬。这是今天三件事共同回答的问题:Skill 卖不出钱、四家 frontier 模型在不同任务上各占一段、PM 的工作核心从前置判断挪到回路速度。表面是三个独立话题,底下是同一张迁徙图。 懒人包:鸭哥昨天发了三篇 AI 长文,一篇说 Skill 是天生带自杀基因的产品,把价值创造和价值捕获被分开这件事讲穿;一篇 GPT-5.5 / Opus 4.7 / DeepSeek V4 派发指南 讲清楚为什么 2026 年春没有任何一个模型能在所有任务里做到最优;一篇 从 Cat Wu 访谈看 PM 的职业道路 讨论工程执行变便宜以后 PM 该往哪里走。同一天 DeepSeek V4 周五发布、Google 宣布再投 Anthropic 400 亿美元、Anthropic 公开 Claude Code 一个月质量滑坡的 postmortem,三件外部事件正好分别落到这三篇文章的论证线里。 Skill 没有卖钱的位置,因为执行不发生在你这里 群里下午开了一场关于 Skill 商业化的长辩论。马工昨天那篇 Agent...

[鸭哥 AI 手记] 2026-04-23 > 今天几件事都围着同一件事打转:谁来写默认值。团队共享 skill 的时候谁的 INDEX 是团队 baseline,AI 画 UI 的时候谁的工作流是 agent 的入口,Anthropic 悄悄把 Claude 的默认 reasoning 档位从 high 调到 medium 就掀起两个月的质量滑坡。默认值被谁定义,这个问题比模型排行榜更决定日常体验。 懒人包:鸭哥昨天发了两篇 AI 长文。团队中共享 AI skills 的原则与方法 放弃了"团队要收敛到一份权威版本"这个假设,让共识从日常使用里自己浮出来;Claude Design 和 Google DESIGN.md 到底是想取代设计师还是想取代码农 把设计师 vs 码农的岗位合并问题压到一个结构差异:码农的工作模式自带反馈循环,agent 嵌得进去。群里同一天在打三场仗:马工和鸭哥就 skill 是 per-person 还是 per-project 辩论了一下午;有人把"ChatGPT→Claude Design→Claude Code"的闭环跑通了;Anthropic...

[鸭哥 AI 手记] 2026-04-21 > 今天刷屏的几个数字都很大:600 亿、1000 亿、1.75 万亿、5 GW。但推动这些数字真正落地的,是几条不在新闻通稿里的约束:编程行为数据的入口、Windsurf 前例里定义过的员工契约结构、以及太空里散热板的平方米数。鸭哥昨天三篇文章正好各自卡在一条约束上。 懒人包:SpaceX 今天给 Cursor 开了两张牌,要么年内 600 亿收购,要么改付 100 亿做技术合作。鸭哥 昨天那篇 把这笔交易和 Inflection、Windsurf、Groq 这两年流行的反向 acqui-hire 放在一条线上看:600 亿面值 vs 员工真实 payout 已经被 Windsurf 示范过怎么脱钩。同一天 Musk 把太空数据中心"30-36 个月内成为最便宜 AI 算力"写进了 IPO 路演叙事,鸭哥 另一篇 用 ISS 的 126 kW 说明散热是物理差距,不是融资差距。第三条线是鸭哥 UI 设计工作流那篇,拆出格式转换、保真度、跨介质沟通三个互锁机制,AI 只啃动了最浅的那个。Figma 股价 4 月 17 日当天跌...