[鸭哥 AI 手记] 2026-03-24


[鸭哥 AI 手记] 2026-03-24

> 你的 AI 环境和你的上下文窗口面临同一个问题:塞进去的东西越多,每一个坏零件造成的伤害就越大。

懒人包:LiteLLM 的 PyPI 包今天被劫持,恶意版本感染同环境里所有 Python 进程,Karpathy 都出来喊话了。同一天,群里几条独立的讨论线索指向同一个转折:给 AI 的上下文不是越多越好,真正拉开差距的是上下文的组织和治理。这两件事看似无关,底层逻辑一样:系统里的坏信号会级联放大,前置检查比事后补救便宜得多。

一个 .pth 文件感染了整个 Python 环境

今天 AI 工程圈最大的安全事件:LiteLLM 的 PyPI 包被 TeamPCP 黑客组织劫持。鸭哥在群里发了详细分析(原文),关键事实值得再强调一遍:恶意版本 1.82.8 里塞了一个 litellm_init.pth 文件,这个文件会在 Python 解释器启动时自动执行,你甚至不需要 import litellm。只要它被装进了某个虚拟环境,该环境里跑的 Flask、Jupyter、pytest 都会中招。

影响面有多大?LiteLLM 月下载量 9700 万次,是目前最流行的 LLM 代理网关之一(BleepingComputer)。Karpathy 在 X 上的帖子拿到了 3760 万次浏览,他指出了一个很多人忽略的传染路径:如果你装了 dspy、某个 MCP 插件或其他任何依赖 litellm>=1.64.0 的包,你可能被间接感染(Karpathy on X)。恶意版本在 PyPI 上存活了约 5.5 小时,从 UTC 10:39 到 16:00(LiteLLM 官方声明)。

攻击之所以被发现,是因为恶意代码有个 bug 导致受害者机器内存爆满崩溃。Karpathy 原话:"如果攻击者没有 vibe code 这个攻击,它可能数天甚至数周都不会被发现。"连黑客都在用 AI 写代码,而 AI 写的代码质量问题反过来救了大家。

群里哞的反应很直接:"pypi 供应链攻击太常见了。"马工补了一句:"全世界免费用开源供应链太久了,没人给钱,发生这种事,理所当然。"TeamPCP 在过去五天里连续攻破了 Trivy(漏洞扫描器)、Checkmarx(代码审计平台)和 LiteLLM(LLM 网关),每一个被攻破的工具都为下一个攻击提供了凭证(ReversingLabs)。安全工具的失陷反过来降低了整个生态的安全性,这就是级联攻击链。

为什么 AI 工程师要比传统开发者更紧张?一个典型的 AI 项目环境里,.env 文件和环境变量中的 API key 密度远高于传统项目。OpenAI key、Anthropic key、各种 MCP 服务的 token、数据库凭证,全部在同一个 Python 环境里可达。鸭哥昨天发的另一篇分析恰好讲的就是这件事:AI Agent 的凭证治理正在从附属功能变成独立产品(鸭哥分析)。1Password 上个月发布 Unified Access,把人、agent 和机器身份放进同一套治理体系。LiteLLM 事件证明这个趋势来得比预期更快。

如果你在 3 月 24 日通过 pip 安装或升级过 LiteLLM,现在就该检查版本、清除缓存、轮换所有可达的凭证。FutureSearch 的分析还提到了 Kubernetes 场景下的持久化检查:看 kube-system 里有没有名字匹配 node-setup- 的异常 pod(FutureSearch)。


上下文不是越多越好,它需要被治理

群里今天有一条讨论线索,从 skill 的动态加载聊到了上下文窗口的收益递减,最后落在了一个出乎意料的共识上:上下文给 AI,和政府发文件是一个逻辑。

马工的原话是:"你给 AI 上下文就相当于政府发文件,文件不是越多越好,你发的太多太乱,相互冲突,反而会妨碍执行。"杨正武用自己的实验验证了这个判断:"即使是 1M 的上下文也实验出来用的越多效果反而变差。"这和学术界的发现一致:lost-in-the-middle 现象表明,当上下文超过阈值后,模型对中间位置信息的提取能力急剧下降(Medium: State of Context Engineering)。一份 2026 年的 context engineering 指南给出了具体数字:推理质量在 prompt 超过约 3000 token 后开始衰减(AI Corner Guide)。

杨正武分享了他的应对方案:把 system prompt 固定在最前面以命中 prefix 缓存,中间做 skill 摘要,然后拼上经过剪枝的 conversation history,最后才是用户输入。他还演示了一个具体的剪枝策略:当 AI 多次尝试不同方法执行 tool 时,只保留最后一个成功的输出,前面的失败尝试全部删掉。一条 history 就能省掉三条无效记录。这个设计的巧妙之处在于,它同时优化了两个维度:缓存命中率(省钱)和信息密度(省注意力)。

群友 yousa 读完鸭哥的 Claude Code skill 后提炼出三个层次:Workspace as Context(鸭哥的 AGENTS.md + rules 体系)、目标导向而非 SOP 导向的 skill 编写、分层异步架构配合中间工件落盘。她特别指出,AI 时代的 SOP 和传统 SOP 有本质区别:传统 SOP 约束确定性流程,AI 的 skill 需要在概率和不确定性下工作,照搬传统写法会适得其反。谭嘉荣分享的一篇文章标题本身就是结论:"从 0 到 25 万行:一个 100% AI 编码项目,真正难的不是生成,而是治理。"

Anthropic 自己也在推动同样的方向。他们最近发布了关于 harness design for long-running apps 的工程博客(Anthropic Engineering),核心观点是:当 agent 需要长时间运行时,上下文管理从辅助功能变成核心工程问题。一篇 arXiv 论文把这个领域正式命名为 context engineering as a first-class concern,提出了自适应上下文压缩和基于事件的 system reminder 来对抗注意力衰减(arXiv)。行业正在从 prompt engineering 经过 context engineering 走向 harness engineering,每一步都在扩大工程师需要设计的范围:从一次调用的措辞,到一次调用的信息环境,再到整个执行环境(AImagicx)。

这两个话题共享一个底层逻辑。供应链攻击里,一个恶意 .pth 文件感染了整个环境;上下文污染里,一段冲突的指令让整条推理链跑偏。解法也一样:隔离环境、前置验证、降低耦合度。杨正武的 prompt 缓存架构本质上是一种上下文隔离设计,和你把 AI 的 API key 放在独立 vault 里是同一个思路。

系统里的坏信号,无论是恶意代码还是冗余上下文,都会沿着耦合路径级联放大。谁先学会在每个接口处设检查点,谁就先拿到下一阶段的门票。


也值得知道

Claude Cowork 和 Claude Code 可以操控你的电脑了:Anthropic 发布 computer use 功能,Claude 可以直接控制浏览器、鼠标和键盘完成任务,即使你离开电脑也能继续工作。目前仅限 macOS 上的 Pro 和 Max 订阅用户。(The Verge

OpenAI 关停 Sora:视频生成服务正式下线。群里谭嘉荣评价"CLI 崛起得太快了",AI 产品形态正在从独立应用转向嵌入开发者工作流的工具。(UniFuncs

YC 总裁 Garry Tan 开源 gstack:一套投资人和创业者视角的 Claude Code skill 集,群友陈浩安利后多人试用。有人反馈一个上午还在 review 阶段,另一个视角是:review 本身就是 gstack 最有价值的部分。(GitHub


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-27 > 今天三件事都在重画同一条线:AI 系统能跑多远,主要取决于它被允许穿过谁的边界。Manus 撞上的是国家边界,企业 agent 撞上的是公司内网,DeepSeek V4 撞上的是芯片供应链。能力越强的玩家,被边界绊住得越早。 懒人包:发改委今天否决了 Meta 用约 $2B 整体收购 Manus 的交易,并要求撤销,是 2021 年《外商投资安全审查办法》生效以来第一个公开走完"禁止+撤销"流程的案例;Manus 同时也是中国 AI 公司被全球大厂整体收购唯一走到 closing 的一家,两个"第一"是同一家。鸭哥昨天的长文 两个"第一"是同一家:Manus、Meta 与一次没有先例的否决 把这件事放进开曼 vs 新加坡两条离岸路径的对照里讲透。同一天群里围着 OpenAI 那条"永不下班的 AI 员工"宣传转发,马工一句"不能跑在本地电脑的 agent,没毛用"把热度按下去;鸭哥补一句"本地化必须驻场工程师支持",把硅谷正在偷偷扩招的 Forward Deployed Engineer 这条线点出来了。 走得最远的人最先撞上规则...

[鸭哥 AI 手记] 2026-04-26 > 今天三件事的暗线是同一件事:AI 把代码生成做成了商品,瓶颈搬到了它后面那一层。能把产能装进去的 harness、能在迭代里维持秩序的全局观、能在每周变三次的模型价格里做选择的判断,这些承担产能的能力,正在变成新的稀缺品。 懒人包:群里一位群友披露他用一套 harness 把 11 个会用 AI 的兼职研发包成计件流水线,100 元/需求、25 元/bug,3 个 50 万的项目实际研发成本压到 2-3 万;同一天马工那篇《全员 AI 提效没什么用》在群里被反复传阅,指向同一件事的反面:没有 harness 兜着,AI 提效就没有出口。模型层一周内连出三个反差信号:GPT-5.5 单次 API 价比 5.4 涨一倍、Plus 5h 配额经常一个任务就用完;Opus 4.7 同价但 tokenizer 换了,实际成本高 1-1.35 倍;DeepSeek V4-Pro 缓存命中价 4 月 26 日官方再砍到 0.025 元/M;GLM 一个月内第二次撕毁老套餐合同。Vibe coding...

[鸭哥 AI 手记] 2026-04-25 > 今天三件事都是同一种动作的三种表演:表面上让出一层,底下抢另一层的留存。Google 把 PyTorch 一等公民让出来、把 5GW 算力让给 Anthropic;Anthropic 在自家桌面 app 里让你跑 GPT 和 Gemini,连订阅费和数据都不要;同期它发的 Project Deal 实验里,Opus 用户系统性把 Haiku 用户的钱拿走,对方一点感觉都没有。三件事合起来才能看出这个春天 agent 基础设施的护城河正在重新分层。 懒人包:鸭哥昨天发了三篇 AI 长文。一篇 Cloud Next 2026 之后 TPU 与 CUDA 的攻防 把 8t/8i 拆分、TorchTPU、Google 投 Anthropic 最高 $40B 这三件事拼成一张图,主结论是 CUDA 的松动主要在推理而不是训练,杠杆是 vLLM 而不是 PyTorch;一篇 Anthropic 让 Cowork 跑别家模型的反常让步 把 Anthropic...