[鸭哥 AI 手记] 2026-03-24

> 你的 AI 环境和你的上下文窗口面临同一个问题：塞进去的东西越多，每一个坏零件造成的伤害就越大。

懒人包：LiteLLM 的 PyPI 包今天被劫持，恶意版本感染同环境里所有 Python 进程，Karpathy 都出来喊话了。同一天，群里几条独立的讨论线索指向同一个转折：给 AI 的上下文不是越多越好，真正拉开差距的是上下文的组织和治理。这两件事看似无关，底层逻辑一样：系统里的坏信号会级联放大，前置检查比事后补救便宜得多。

一个 .pth 文件感染了整个 Python 环境

今天 AI 工程圈最大的安全事件：LiteLLM 的 PyPI 包被 TeamPCP 黑客组织劫持。鸭哥在群里发了详细分析（原文），关键事实值得再强调一遍：恶意版本 1.82.8 里塞了一个 litellm_init.pth 文件，这个文件会在 Python 解释器启动时自动执行，你甚至不需要 import litellm。只要它被装进了某个虚拟环境，该环境里跑的 Flask、Jupyter、pytest 都会中招。

影响面有多大？LiteLLM 月下载量 9700 万次，是目前最流行的 LLM 代理网关之一（BleepingComputer）。Karpathy 在 X 上的帖子拿到了 3760 万次浏览，他指出了一个很多人忽略的传染路径：如果你装了 dspy、某个 MCP 插件或其他任何依赖 litellm>=1.64.0 的包，你可能被间接感染（Karpathy on X）。恶意版本在 PyPI 上存活了约 5.5 小时，从 UTC 10:39 到 16:00（LiteLLM 官方声明）。

攻击之所以被发现，是因为恶意代码有个 bug 导致受害者机器内存爆满崩溃。Karpathy 原话："如果攻击者没有 vibe code 这个攻击，它可能数天甚至数周都不会被发现。"连黑客都在用 AI 写代码，而 AI 写的代码质量问题反过来救了大家。

群里哞的反应很直接："pypi 供应链攻击太常见了。"马工补了一句："全世界免费用开源供应链太久了，没人给钱，发生这种事，理所当然。"TeamPCP 在过去五天里连续攻破了 Trivy（漏洞扫描器）、Checkmarx（代码审计平台）和 LiteLLM（LLM 网关），每一个被攻破的工具都为下一个攻击提供了凭证（ReversingLabs）。安全工具的失陷反过来降低了整个生态的安全性，这就是级联攻击链。

为什么 AI 工程师要比传统开发者更紧张？一个典型的 AI 项目环境里，.env 文件和环境变量中的 API key 密度远高于传统项目。OpenAI key、Anthropic key、各种 MCP 服务的 token、数据库凭证，全部在同一个 Python 环境里可达。鸭哥昨天发的另一篇分析恰好讲的就是这件事：AI Agent 的凭证治理正在从附属功能变成独立产品（鸭哥分析）。1Password 上个月发布 Unified Access，把人、agent 和机器身份放进同一套治理体系。LiteLLM 事件证明这个趋势来得比预期更快。

如果你在 3 月 24 日通过 pip 安装或升级过 LiteLLM，现在就该检查版本、清除缓存、轮换所有可达的凭证。FutureSearch 的分析还提到了 Kubernetes 场景下的持久化检查：看 kube-system 里有没有名字匹配 node-setup- 的异常 pod（FutureSearch）。

上下文不是越多越好，它需要被治理

群里今天有一条讨论线索，从 skill 的动态加载聊到了上下文窗口的收益递减，最后落在了一个出乎意料的共识上：上下文给 AI，和政府发文件是一个逻辑。

马工的原话是："你给 AI 上下文就相当于政府发文件，文件不是越多越好，你发的太多太乱，相互冲突，反而会妨碍执行。"杨正武用自己的实验验证了这个判断："即使是 1M 的上下文也实验出来用的越多效果反而变差。"这和学术界的发现一致：lost-in-the-middle 现象表明，当上下文超过阈值后，模型对中间位置信息的提取能力急剧下降（Medium: State of Context Engineering）。一份 2026 年的 context engineering 指南给出了具体数字：推理质量在 prompt 超过约 3000 token 后开始衰减（AI Corner Guide）。

杨正武分享了他的应对方案：把 system prompt 固定在最前面以命中 prefix 缓存，中间做 skill 摘要，然后拼上经过剪枝的 conversation history，最后才是用户输入。他还演示了一个具体的剪枝策略：当 AI 多次尝试不同方法执行 tool 时，只保留最后一个成功的输出，前面的失败尝试全部删掉。一条 history 就能省掉三条无效记录。这个设计的巧妙之处在于，它同时优化了两个维度：缓存命中率（省钱）和信息密度（省注意力）。

群友 yousa 读完鸭哥的 Claude Code skill 后提炼出三个层次：Workspace as Context（鸭哥的 AGENTS.md + rules 体系）、目标导向而非 SOP 导向的 skill 编写、分层异步架构配合中间工件落盘。她特别指出，AI 时代的 SOP 和传统 SOP 有本质区别：传统 SOP 约束确定性流程，AI 的 skill 需要在概率和不确定性下工作，照搬传统写法会适得其反。谭嘉荣分享的一篇文章标题本身就是结论："从 0 到 25 万行：一个 100% AI 编码项目，真正难的不是生成，而是治理。"

Anthropic 自己也在推动同样的方向。他们最近发布了关于 harness design for long-running apps 的工程博客（Anthropic Engineering），核心观点是：当 agent 需要长时间运行时，上下文管理从辅助功能变成核心工程问题。一篇 arXiv 论文把这个领域正式命名为 context engineering as a first-class concern，提出了自适应上下文压缩和基于事件的 system reminder 来对抗注意力衰减（arXiv）。行业正在从 prompt engineering 经过 context engineering 走向 harness engineering，每一步都在扩大工程师需要设计的范围：从一次调用的措辞，到一次调用的信息环境，再到整个执行环境（AImagicx）。

这两个话题共享一个底层逻辑。供应链攻击里，一个恶意 .pth 文件感染了整个环境；上下文污染里，一段冲突的指令让整条推理链跑偏。解法也一样：隔离环境、前置验证、降低耦合度。杨正武的 prompt 缓存架构本质上是一种上下文隔离设计，和你把 AI 的 API key 放在独立 vault 里是同一个思路。

系统里的坏信号，无论是恶意代码还是冗余上下文，都会沿着耦合路径级联放大。谁先学会在每个接口处设检查点，谁就先拿到下一阶段的门票。

也值得知道

Claude Cowork 和 Claude Code 可以操控你的电脑了：Anthropic 发布 computer use 功能，Claude 可以直接控制浏览器、鼠标和键盘完成任务，即使你离开电脑也能继续工作。目前仅限 macOS 上的 Pro 和 Max 订阅用户。（The Verge）

OpenAI 关停 Sora：视频生成服务正式下线。群里谭嘉荣评价"CLI 崛起得太快了"，AI 产品形态正在从独立应用转向嵌入开发者工作流的工具。（UniFuncs）

YC 总裁 Garry Tan 开源 gstack：一套投资人和创业者视角的 Claude Code skill 集，群友陈浩安利后多人试用。有人反馈一个上午还在 review 阶段，另一个视角是：review 本身就是 gstack 最有价值的部分。（GitHub）

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-03-24

[鸭哥 AI 手记] 2026-03-24

一个 .pth 文件感染了整个 Python 环境

上下文不是越多越好，它需要被治理

也值得知道

[鸭哥 AI 手记] 2026-04-27

[鸭哥 AI 手记] 2026-04-26

[鸭哥 AI 手记] 2026-04-25