懒人包:Lovable ARR 突破 4 亿美元,95% 来自个人用户每月 $20 的订阅。这是"用户为自己生成软件"这个品类第一次有了商业账本上的证据。但同一组数据也暴露了一个矛盾:B2C 的 credit 定价让用户为 AI 的每一次幻觉买单,迭代成本直接体现在钱包里。同一天,攻击者在 PyPI 恶意包的 JavaScript 注释里塞入核生化关键词,利用 LLM 安全扫描器的过度拒绝机制绕过分析。两件事的底层共享一个形状:当一个品类从理论进入运营阶段,它理论时期的假设会被现实捅出窟窿。
鸭哥昨天在 User Generated Software 的第一个商业样本 里拆了 Lovable 的财报数据。成立不到两年,ARR 突破 4 亿美元(Sacra 独立数据确认为 $400M),146 名员工,人均年产出接近 $300 万。Forbes 的报道确认了其中最有信息量的数字:企业客户贡献的 ARR 只有 2000 万,占总额的 5%(Forbes)。
这件事的意义远不止"又多了一家值钱的公司"。第一次有人在财报层面证实了一个此前只存在于 VC pitch 里的判断:User Generated Software 是一个独立的、可量化的市场品类。
Bolt.new 和 Lovable 几乎同时上线,在做同一件事。Replit 创始人对外宣称 2026 年底收入目标 $10 亿。一批公司同时在快速增长,需求是真实的(Reddit)。
但 UGS 的 B2C 支付结构制造了一个品类特有的矛盾:用户需要为 AI 的每一次失败迭代买单。Reddit 社区最常出现的一类帖子标题是"Lovable 的问题"。AI 声称修好了一个 bug,花掉 10 到 20 个 credit,运行后 bug 还在。重复三次五次。Superblocks 的第三方评测指出 Lovable 最多能把应用做到 70% 的完成度,剩下 30% 会消耗大量时间在调试循环里(Superblocks)。有用户的原话是:"我整个职业生涯从没担心过改 bug 要花多少钱,Lovable 彻底改变了这一点。"Lovable 的 credit 墙在重度用户那里一周烧穿,有经验的用户总结了一致的逃生路线:用 30-50 个 prompt 在 Lovable 做原型,导出到 GitHub,转到 Cursor 或 Claude Code 继续开发。原型到生产的价值,流向 B2B 开发者工具。
同一天的群聊里,同一个矛盾在另一个群体里重复了一遍。Fable 5 上线后,群友的 token 配额加速烧穿。体感消耗是 Opus 4.8 的 5 倍,$200 订阅额度只够几分钟的并行 agent 任务。郝越在群里描述了 Anthropic 预设的用户行为轨迹:"给你试用下,让你上瘾。你现在用了 12 天 fable,23 号回到 opus,浑身不舒服,就想充钱。"邹轶给了一个更底层的观察:"所有企业动作不以 API token 做成本锚点都是理想化。"Cursor 换成 token 计费后,一天几千美金。
鸭哥在文章结尾写了一个比产品形态更重要的判断:UGS 的 B2C 定价和 B2B 支付结构之间存在一个还没填上的沟。群里的讨论把这条线索往专业用户那边延伸了一步:同一个问题同样存在于最先进的开发者模型。能力越强,使用它的经济模型越疲软。同一天,WSJ 独报 OpenAI 正考虑大幅降低 token 定价以抢 Anthropic 用户(Reuters)。这件事本身有两个面向。第一,GitHub Copilot 今年 6 月刚从固定月费切换为 token 计量,部分用户账单暴涨到每月 $3000,Reddit 称之为 Tokenpocalypse(TechCrunch)。第二,Goldman Sachs 和 Metronome 的调研共同得出一个结论:agentic workflow 的 token 消耗增速远超单价下降速度。每 token 变便宜,每次交互烧掉的 token 却成倍增长,净成本不降反升(Goldman Sachs)。Lago 的分析师把问题总结得直白:"不是模型在变贵,是越强的模型消耗越多 token,而 agent 场景把乘数效应推到了一个新量级"(Lago)。能力在往前跑,经济层在往后退。这件事的尺度超出了任何一个单一产品。Software Pricing Partners 在 4 月的一篇长文里指出,credit 定价本质上是把基础设施定价模型搬到应用层,跳过了真正的价值度量识别工作(Software Pricing Partners)。收入被锁死在成本加成模式里,而用户每多用一个 agentic workflow,公司的毛利率就薄一层。这是 UGS 和 Fable 5 共享的困境,只是一个在 $20/月的轻量级用户端,一个在 $200/月的重度开发者端。
鸭哥昨天在 一段 JavaScript 注释,让 AI 安全扫描器主动放弃了分析 里还原了一起供应链攻击的技术细节。6 月 7-8 日,Socket 和 Endor Labs 先后披露了一批混在 PyPI 生物信息学软件库里的恶意 Python 包。攻击者在恶意 JavaScript 文件开头塞了 99 行注释,伪装成一份机密简报,详细描述生物武器气溶胶散布和核装置内爆式组装的技术细节。这段注释不被 JS 运行时执行。它的唯一功能是让 LLM 安全扫描器在读到核生化关键词后,直接拒绝继续分析。真正的恶意载荷在第 101 行才启动:Caesar 移位加密的 eval 包裹器,内含 AES-128-GCM 解密逻辑。扫描器还没走到这一步,已经被前 99 行注释劝退了。
整个攻击链波及 471 个制品,411 个 npm 包、60 个 PyPI 包,跨 106 个 npm 仓库和 37 个 PyPI 仓库。目标包括开发者的云服务凭据、CI/CD 密钥、包注册令牌。Citizen Lab 高级研究员 John Scott-Railton 在 X 上发帖,获得了 130 万次浏览。他的原话是:"恶意软件开发者将核武器和生物武器文本添加到他们的间谍软件中。目标?触发 LLM 安全拒绝,使他们的间谍软件不被 AI 安全扫描器分析"(X)。
鸭哥在文章里把这个攻击定位在了逃逸技术的第三代谢迁上。第一代反分析是让工具跑不起来:反调试、反虚拟机、反沙箱。第二代是让工具看不懂:代码混淆、加壳、字符串加密。现在这一代的做法是反过来利用工具的安全机制本身,让工具主动选择不看。攻击成本从写几百行对抗逻辑降到了复制粘贴一段公开文本。Pangea 团队的实验印证了这一点:仅在代码顶部加入一段简单的 prompt injection,gemini-cli 就完全忽视其恶意意图(Pangea)。多校联合论文给出了量化:包含攻击性术语的分析提示,被 LLM 拒绝的概率是中性术语的 2.72 倍(arXiv)。防御方在加固上一代的沙箱和反混淆引擎,攻击方已经跑到下一代去了。ChatGPT 聊天场景里的"拒绝回复危险请求"是正确的产品设计,但当同一套安全逻辑被搬进自动化安全分析流水线,它面对的不是用户请求,是待分析的数据。模型看到核生化关键词就关闸,不论这个词来自攻击者塞入的注释还是分析工程师写的审计指令。
同一天,这个模式找到了它的镜像案例。WIRED 6 月 9 日曝光 Anthropic 在 Claude Fable 5 中部署了隐蔽安全机制:当模型检测到用户在从事 AI 研发时,会在用户不知情的情况下悄悄降低能力(WIRED)。这引发 Reddit 上的强烈批评,Anthropic 随后公开道歉并撤回。
两件事的底层是同一个形状:安全机制因为场景感知缺失,产生了和初衷相反的副作用。二元闸门在聊天场景里有它的合理性,你不知道对面是谁,保守拒绝是稳妥的。但当同一套闸门被放进一个已知上下文的专业工具里,看到危险词就关门的默认行为就退化成了可被利用的攻击面。
鸭哥在文章里给出了一个三层修复方案:把代码和注释拆开处理、把拒绝本身当作高优先级信号而不是终点、把安全判定还给传统静态分析和 LLM 摘要的交叉验证。这条方案没有新的模型能力需求。它是一个工程判断:让安全机制知道自己站在分析流水线的哪个位置。
实际上,今天的两个话题从不同方向指向了同一个更底层的问题。Lovable 的 credit 墙和 LLM 扫描器的二元拒绝,都是把在一个场景里成立的机制不加修改地搬到了另一个场景。$20/月的定价是 SaaS 思维,放在随时产生幻觉的 agentic 工具上,用户为 AI 的错误买了单。聊天场景的安全拒绝是用户交互思维,放在面对恶意代码的分析流水线里,攻击者用注释放了一个免费烟雾弹。这两类问题的共同解法不在模型能力层。在部署之前先问清楚:这个机制当初是为哪个场景设计的。
OpenAI 秘密提交 IPO:6 月 8 日向 SEC 提交 S-1,同日发布公众化转型计划(OpenAI 博客)。6 月 10 日 WSJ 报道其正考虑大幅降低 token 定价以对抗 Anthropic,讨论尚在进行中。Anthropic 也在近期秘密提交 IPO 申请,可能成为史上最大科技 IPO(WIRED)。
伊利诺伊州通过美国最严 AI 安全法案:要求前沿 AI 公司年度独立第三方审计,包含举报人保护条款。参议院 52-5、众议院 110-0 全票通过。Anthropic 同一天敦促国会不要阻止州级 AI 立法(NBC News)。
Mercor 4TB 数据泄露:AI 训练平台 Mercor(估值 $100 亿)通过 LiteLLM 供应链攻击被渗透,泄露约 40,000 名承包商个人信息及多家前沿 AI 实验室的训练方法论(StrikeGraph)。这起事件与同期的 PyPI 攻击和 OpenAI TanStack 供应链危机属于同一波 Shai-Hulud 攻击家族。
Oracle Q4 业绩超预期:受益于 AI 云需求,剩余履约义务超过 $553B。同一天 OpenAI 宣布模型将通过 OCI 提供(OpenAI 博客)。
本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。
本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。
订阅本 newsletter:daily.yage.ai
每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。
[鸭哥 AI 手记] 2026-06-11: Fable 5 暗中降智被曝光,36 小时道歉 懒人包:Anthropic 在 Fable 5 里植入了一个用户看不见的降智机制——检测到你在做前沿 AI 开发,就悄悄降低输出质量。36 小时后舆论反弹道歉逆转。这件事暴露的不是一家公司的伦理问题,而是整个闭源 AI API 行业缺少一个基本能力:可验证性。同一天,钉钉 CEO 无招被换,92 年技术极客陈宇森接任,他的赌注是 Agent 能让企业软件像"3D 打印"一样按需生成。两件事的共同命题:当你依赖的外部系统能悄悄改变行为,你的判断还靠得住吗。 Fable 5 的隐形开关,和一条还没建起来的基础设施 6 月 9 日,Anthropic 发布了 Fable 5,第一个向公众开放的 Mythos 级模型,定价每百万输出 token $50,约为上一代 Opus 4.8 的两倍。同一份 319 页系统卡里写着一个社区一开始没注意到的设计。 Fable 5 有四类安全分类器。其中三类——网络安全、生物化学、模型蒸馏——触发时会把请求透明地转交给 Opus...
[鸭哥 AI 手记] 2026-06-09: 通才配AI,压过领域专家 懒人包:Anthropic在Fable 5的安全报告里埋了一个稻瘟病防御实验。六位生物学博士分两组用同一个AI模型做任务,通用组里两支团队方案质量超过了所有领域专家团队。纯人工做同样的方案需要两到三个半月,AI辅助下两个人一天多搞定。这个实验暴露了一条正在移动的价值分界线:AI抹平了"知道得多"的信息差,却让另一类人——知道AI在哪里会出错、什么时候该停下来的人——更稀缺了。同一天,Fable 5公布定价:每百万输出token $50,两周后退出订阅改按用量计费。而Anthropic两个月前悄悄发布的advisor tool,恰好是高价下唯一算得过账的用法。 稻瘟病实验里那个没被对照的变量 鸭哥昨天在 Fable 5 的安全报告里埋着一个稻瘟病实验,暴露了谁才是绕不过去的人 中拆了Anthropic 244页安全报告中的一段。六位生物学博士分成两组,一组配植物病理学专家,另一组配普通微生物学博士,所有人用Claude Mythos 5完成一个农业病原体防御设计任务,时限16小时。...
[鸭哥 AI 手记] 2026-06-08: 何恺明新作:画图模型打败三个专家 懒人包:Google DeepMind 的 Vision Banana 用一个只会画图的模型,在分割、深度估计、表面法线三个基准上同时超过了 SAM 3、Depth Anything 3 和 Lotus-2。没改架构,只换了提示词。ResNet 发明人何恺明和 DiT 框架联合作者谢赛宁以 leadership sponsor 身份参与。同一天,群里爆发了一场关于 agent 系统到底能不能调试的争论,实测数字是 agent 任务收敛需要 50-150 轮复检,传统代码只要 3-5 轮。两件事指向同一个矛盾:LLM 让它强大的是概率性,让它难搞的也是概率性。 一个只会画图的模型,同时打败了三个领域专家 鸭哥昨天在 Vision Banana:生成即理解终于来到视觉领域 里拆了一篇 Google DeepMind 的新论文。论文做了一件反直觉的事:把语义分割、度量深度估计、表面法线估计全部重新定义为图片生成任务。...