> 你的 AI 环境和你的上下文窗口面临同一个问题:塞进去的东西越多,每一个坏零件造成的伤害就越大。
懒人包:LiteLLM 的 PyPI 包今天被劫持,恶意版本感染同环境里所有 Python 进程,Karpathy 都出来喊话了。同一天,群里几条独立的讨论线索指向同一个转折:给 AI 的上下文不是越多越好,真正拉开差距的是上下文的组织和治理。这两件事看似无关,底层逻辑一样:系统里的坏信号会级联放大,前置检查比事后补救便宜得多。
今天 AI 工程圈最大的安全事件:LiteLLM 的 PyPI 包被 TeamPCP 黑客组织劫持。鸭哥在群里发了详细分析(原文),关键事实值得再强调一遍:恶意版本 1.82.8 里塞了一个 litellm_init.pth 文件,这个文件会在 Python 解释器启动时自动执行,你甚至不需要 import litellm。只要它被装进了某个虚拟环境,该环境里跑的 Flask、Jupyter、pytest 都会中招。
影响面有多大?LiteLLM 月下载量 9700 万次,是目前最流行的 LLM 代理网关之一(BleepingComputer)。Karpathy 在 X 上的帖子拿到了 3760 万次浏览,他指出了一个很多人忽略的传染路径:如果你装了 dspy、某个 MCP 插件或其他任何依赖 litellm>=1.64.0 的包,你可能被间接感染(Karpathy on X)。恶意版本在 PyPI 上存活了约 5.5 小时,从 UTC 10:39 到 16:00(LiteLLM 官方声明)。
攻击之所以被发现,是因为恶意代码有个 bug 导致受害者机器内存爆满崩溃。Karpathy 原话:"如果攻击者没有 vibe code 这个攻击,它可能数天甚至数周都不会被发现。"连黑客都在用 AI 写代码,而 AI 写的代码质量问题反过来救了大家。
群里哞的反应很直接:"pypi 供应链攻击太常见了。"马工补了一句:"全世界免费用开源供应链太久了,没人给钱,发生这种事,理所当然。"TeamPCP 在过去五天里连续攻破了 Trivy(漏洞扫描器)、Checkmarx(代码审计平台)和 LiteLLM(LLM 网关),每一个被攻破的工具都为下一个攻击提供了凭证(ReversingLabs)。安全工具的失陷反过来降低了整个生态的安全性,这就是级联攻击链。
为什么 AI 工程师要比传统开发者更紧张?一个典型的 AI 项目环境里,.env 文件和环境变量中的 API key 密度远高于传统项目。OpenAI key、Anthropic key、各种 MCP 服务的 token、数据库凭证,全部在同一个 Python 环境里可达。鸭哥昨天发的另一篇分析恰好讲的就是这件事:AI Agent 的凭证治理正在从附属功能变成独立产品(鸭哥分析)。1Password 上个月发布 Unified Access,把人、agent 和机器身份放进同一套治理体系。LiteLLM 事件证明这个趋势来得比预期更快。
如果你在 3 月 24 日通过 pip 安装或升级过 LiteLLM,现在就该检查版本、清除缓存、轮换所有可达的凭证。FutureSearch 的分析还提到了 Kubernetes 场景下的持久化检查:看 kube-system 里有没有名字匹配 node-setup- 的异常 pod(FutureSearch)。
群里今天有一条讨论线索,从 skill 的动态加载聊到了上下文窗口的收益递减,最后落在了一个出乎意料的共识上:上下文给 AI,和政府发文件是一个逻辑。
马工的原话是:"你给 AI 上下文就相当于政府发文件,文件不是越多越好,你发的太多太乱,相互冲突,反而会妨碍执行。"杨正武用自己的实验验证了这个判断:"即使是 1M 的上下文也实验出来用的越多效果反而变差。"这和学术界的发现一致:lost-in-the-middle 现象表明,当上下文超过阈值后,模型对中间位置信息的提取能力急剧下降(Medium: State of Context Engineering)。一份 2026 年的 context engineering 指南给出了具体数字:推理质量在 prompt 超过约 3000 token 后开始衰减(AI Corner Guide)。
杨正武分享了他的应对方案:把 system prompt 固定在最前面以命中 prefix 缓存,中间做 skill 摘要,然后拼上经过剪枝的 conversation history,最后才是用户输入。他还演示了一个具体的剪枝策略:当 AI 多次尝试不同方法执行 tool 时,只保留最后一个成功的输出,前面的失败尝试全部删掉。一条 history 就能省掉三条无效记录。这个设计的巧妙之处在于,它同时优化了两个维度:缓存命中率(省钱)和信息密度(省注意力)。
群友 yousa 读完鸭哥的 Claude Code skill 后提炼出三个层次:Workspace as Context(鸭哥的 AGENTS.md + rules 体系)、目标导向而非 SOP 导向的 skill 编写、分层异步架构配合中间工件落盘。她特别指出,AI 时代的 SOP 和传统 SOP 有本质区别:传统 SOP 约束确定性流程,AI 的 skill 需要在概率和不确定性下工作,照搬传统写法会适得其反。谭嘉荣分享的一篇文章标题本身就是结论:"从 0 到 25 万行:一个 100% AI 编码项目,真正难的不是生成,而是治理。"
Anthropic 自己也在推动同样的方向。他们最近发布了关于 harness design for long-running apps 的工程博客(Anthropic Engineering),核心观点是:当 agent 需要长时间运行时,上下文管理从辅助功能变成核心工程问题。一篇 arXiv 论文把这个领域正式命名为 context engineering as a first-class concern,提出了自适应上下文压缩和基于事件的 system reminder 来对抗注意力衰减(arXiv)。行业正在从 prompt engineering 经过 context engineering 走向 harness engineering,每一步都在扩大工程师需要设计的范围:从一次调用的措辞,到一次调用的信息环境,再到整个执行环境(AImagicx)。
这两个话题共享一个底层逻辑。供应链攻击里,一个恶意 .pth 文件感染了整个环境;上下文污染里,一段冲突的指令让整条推理链跑偏。解法也一样:隔离环境、前置验证、降低耦合度。杨正武的 prompt 缓存架构本质上是一种上下文隔离设计,和你把 AI 的 API key 放在独立 vault 里是同一个思路。
系统里的坏信号,无论是恶意代码还是冗余上下文,都会沿着耦合路径级联放大。谁先学会在每个接口处设检查点,谁就先拿到下一阶段的门票。
Claude Cowork 和 Claude Code 可以操控你的电脑了:Anthropic 发布 computer use 功能,Claude 可以直接控制浏览器、鼠标和键盘完成任务,即使你离开电脑也能继续工作。目前仅限 macOS 上的 Pro 和 Max 订阅用户。(The Verge)
OpenAI 关停 Sora:视频生成服务正式下线。群里谭嘉荣评价"CLI 崛起得太快了",AI 产品形态正在从独立应用转向嵌入开发者工作流的工具。(UniFuncs)
YC 总裁 Garry Tan 开源 gstack:一套投资人和创业者视角的 Claude Code skill 集,群友陈浩安利后多人试用。有人反馈一个上午还在 review 阶段,另一个视角是:review 本身就是 gstack 最有价值的部分。(GitHub)
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:yage-ai.kit.com
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-06-11: Fable 5 暗中降智被曝光,36 小时道歉 懒人包:Anthropic 在 Fable 5 里植入了一个用户看不见的降智机制——检测到你在做前沿 AI 开发,就悄悄降低输出质量。36 小时后舆论反弹道歉逆转。这件事暴露的不是一家公司的伦理问题,而是整个闭源 AI API 行业缺少一个基本能力:可验证性。同一天,钉钉 CEO 无招被换,92 年技术极客陈宇森接任,他的赌注是 Agent 能让企业软件像"3D 打印"一样按需生成。两件事的共同命题:当你依赖的外部系统能悄悄改变行为,你的判断还靠得住吗。 Fable 5 的隐形开关,和一条还没建起来的基础设施 6 月 9 日,Anthropic 发布了 Fable 5,第一个向公众开放的 Mythos 级模型,定价每百万输出 token $50,约为上一代 Opus 4.8 的两倍。同一份 319 页系统卡里写着一个社区一开始没注意到的设计。 Fable 5 有四类安全分类器。其中三类——网络安全、生物化学、模型蒸馏——触发时会把请求透明地转交给 Opus...
[鸭哥 AI 手记] 2026-06-10: Lovable 14个月从0做到4亿美元 懒人包:Lovable ARR 突破 4 亿美元,95% 来自个人用户每月 $20 的订阅。这是"用户为自己生成软件"这个品类第一次有了商业账本上的证据。但同一组数据也暴露了一个矛盾:B2C 的 credit 定价让用户为 AI 的每一次幻觉买单,迭代成本直接体现在钱包里。同一天,攻击者在 PyPI 恶意包的 JavaScript 注释里塞入核生化关键词,利用 LLM 安全扫描器的过度拒绝机制绕过分析。两件事的底层共享一个形状:当一个品类从理论进入运营阶段,它理论时期的假设会被现实捅出窟窿。 4 亿美元年收入,95% 来自不写代码的人 鸭哥昨天在 User Generated Software 的第一个商业样本 里拆了 Lovable 的财报数据。成立不到两年,ARR 突破 4 亿美元(Sacra 独立数据确认为 $400M),146 名员工,人均年产出接近 $300 万。Forbes 的报道确认了其中最有信息量的数字:企业客户贡献的 ARR 只有 2000 万,占总额的...
[鸭哥 AI 手记] 2026-06-09: 通才配AI,压过领域专家 懒人包:Anthropic在Fable 5的安全报告里埋了一个稻瘟病防御实验。六位生物学博士分两组用同一个AI模型做任务,通用组里两支团队方案质量超过了所有领域专家团队。纯人工做同样的方案需要两到三个半月,AI辅助下两个人一天多搞定。这个实验暴露了一条正在移动的价值分界线:AI抹平了"知道得多"的信息差,却让另一类人——知道AI在哪里会出错、什么时候该停下来的人——更稀缺了。同一天,Fable 5公布定价:每百万输出token $50,两周后退出订阅改按用量计费。而Anthropic两个月前悄悄发布的advisor tool,恰好是高价下唯一算得过账的用法。 稻瘟病实验里那个没被对照的变量 鸭哥昨天在 Fable 5 的安全报告里埋着一个稻瘟病实验,暴露了谁才是绕不过去的人 中拆了Anthropic 244页安全报告中的一段。六位生物学博士分成两组,一组配植物病理学专家,另一组配普通微生物学博士,所有人用Claude Mythos 5完成一个农业病原体防御设计任务,时限16小时。...