[鸭哥 AI 手记] 2026-04-15


[鸭哥 AI 手记] 2026-04-15

> 昨天写完 AI 教育那篇长文,晚上看群里 challen 的复盘,白天又听了马工在 QCon 的圆桌,三件事讲的居然是同一件事。直觉告诉我们使劲的地方,和真正能撬动结果的地方,经常差着一步。挪过去的动作本身不难,难的是承认自己长期在错的位置上使劲。

懒人包:鸭哥昨天那篇 AI 教育长文的起点是一个硅谷工程师给孩子开 Khanmigo 的直觉,终点是 Khanmigo 自己的数据:学生日常使用率卡在 5%,真正能突破这条线的学校都做对了一件事,把 AI 嵌进课表和课堂设计本身。群友 challen 花了一整年、重写十多次才把每天 12 小时录音的自动转写跑通,卡住他的不是哪个脚本写得不够好,而是他一直把 AI 放在流水线末端做总结,直到把 opencode server 抬到中间当编排层,整条链路才跑了起来。同一天马工在 QCon 圆桌上说传统 SaaS 已经没戏,Palantir 最近一个季度同比增长 70%、利润率 43% 给这句话做了注脚。三件事其实都在做同一个动作:把杠杆从习惯放的位置,挪到真正起作用的位置。

AI 教育的杠杆点,可能从来就不在学生那一侧

这篇长文的起点是一个很熟悉的场景。硅谷工程师家的孩子数学跟不上,打开 Khanmigo,每天陪娃做半小时 AI 家教,一段时间之后成绩回来了。朋友圈里这类故事已经够多,背后压的教育学共识也够扎实:Bloom 的 Two Sigma 说一对一辅导比班级教学高两个标准差,Vygotsky 的最近发展区告诉你要把练习卡在学生当前能力的边缘,Black 和 Wiliam 的形成性评价强调实时反馈。这三块拼在一起,AI 时代很自然地就做成了给每个孩子配一个专属 AI 老师的样子。我自己最早写 AI 教育相关的东西,也默认是在这套图景里打转。

但坐下来看落地数据,这个图景就开始松动。Khanmigo 这两年是 AI 教育里喊得最响的案例,用户从 2023-24 学年的 6.8 万涨到 2024-25 学年的 70 万,合作学区从 45 个扩到 380 个(Khan Academy / K-12 Dive)。数字漂亮,但 Learning Engineering Virtual Institute 追踪下来发现一个挺打脸的现象:大多数学校真上线以后,学生日常使用率卡在 5% 以下。能把这条线突破的学校都做了同一件事,学区层面定了明确的学习目标,课表里挤出固定的 AI 练习时间(LEVI)。没做这一步的学校,像 Dallas ISD,直接把合同取消了。AI 一对一产品好不好用,决定不了采用曲线。能决定的是这堂课本身是怎么设计的,以及组织上有没有配套跟上。

更底层的证据其实回到 Two Sigma 原文本身。Education Next 前阵子把 Bloom 1984 年那个原始实验重新翻了一遍,发现那两个标准差的效果主要来自两条机制:mastery learning,学生过不了这一关就不让他跳到下一关;formative feedback,老师实时看到学生哪里卡住然后介入。所谓一个人专门盯着另一个人这层人情连接,在数据里其实贡献有限(Education Next)。Hattie 的 Visible Learning meta-analysis 也指向同一个方向,班级大小的效应量只有 0.21,教学方法本身的效应量在 0.4 到 0.7 之间。换句话说,把班从 40 人砍到 20 人让老师多陪每个孩子一点,这件事对学习效果的拉动只能勉强算有意义。真正拉开差距的变量藏在另一个维度上,就是这节课设计得怎么样、练习怎么组织、反馈怎么给。

NBER 最近发的那篇 Khan Academy field experiment 把这个结论坐实了。Mindspark 被调整为占用 25-50% 的课堂时间、配一个实验室管理员之后,18 个月能跑出 0.22 个标准差的数学提升(NBER w34683)。AI 被嵌进主课堂的时间表才有这个量级的效果,拿回去当课后补救工具则很难做到。顺着这条数据再回头看那个硅谷工程师的直觉,他的方向大致是对的,只是他手里那把杠杆落在课后自学这个位置,能撬动的空间有限。

群里的讨论这两天正好从三个不同角度戳到了这件事。黄一凯抛了一句"高考不是知识考试,是社会分级考试",这是评价体系决定论的版本。只要考核方向不变,AI 省出来的时间不会被投进课堂设计,只会被导回去多刷题、多覆盖边缘知识点。这条担忧承认 AI 的作用,也提醒杠杆压进去之前,先看看杠杆另一头挂的是什么。

Adrian 从厦门给了一个反方向的样本。他和当地教培公司合作做 AI 线下课,每期七八个孩子,小学一年级到高中的都有,用 AI 做自己的游戏和网站,他说"反馈都非常好"。他的切入点和我写那篇文章时想清楚的那个点其实是同一个:AI 落在对的位置上,是让一堂原本很难设计的项目课能够落地,而不是跟老师抢陪孩子的那一对一时间。黑板分享的场景更近一些,他用 AI 出卷、孩子做、AI 判卷、针对弱项再出下一张卷。这一下就把原本占掉老师大半备课时间的出题和反馈环节自动化了,老师留出来的时间可以重新投回到课堂设计本身。

三个人的场景看起来毫不相关,一个在东亚应试教育的评价体系里,一个在线下培训班里做项目课,一个在日常家庭作业里补弱项。但他们都在往同一个方向使力,把课和作业这一层的制造成本压下来,让主流叙事里那个"学生端 AI 老师"的想象退到辅助位。


从 challen 的摩擦系数归零,到 SaaS 的退位

群友 challen 发了一篇复盘,讲他花了整整一年,才把一个看起来简单的任务跑到摩擦系数为零:每天 12 小时以上的 plaud 录音自动下载、上传腾讯会议转写、再回来汇总成每日复盘。听起来就是几个脚本串一串的事,但他反复重写了不下十次。

每一版都败在不同的工程细节上。最早的方案是写一套 cron,定时去敲 plaud 的下载接口。plaud 自己没有稳定的官方 API,他只能绕着 web 会话走,每隔一段时间 cookie 失效,cron 就静默跑空,第二天早上打开一看,昨天的录音一条都没到。换 MCP 浏览器方案之后,好日子就那么几天,赶上服务端忙的时候一个操作要转十几秒,连着点几步就超时退出,下载到一半的文件还得手动清理。后来切到 comet 这类 AI 浏览器,稳定性也撑不住一整条长链路,经常做到第三步就挂。5 小时的录音单个文件上传要十几分钟,中途 session 一断就得整条重来,重来又要人工回去判断上一次停在哪里。

真正消耗精力的是每周都有两三天要回来维护这条管道,单点 bug 反而是小事。新的 API 鉴权方式上线就得重写一块,腾讯会议那边页面改版就得重新录一遍自动化脚本,MCP server 升级就得对着日志去猜是哪个字段的兼容出了问题。每修一次都要搭脑子进去重新加载整条流程的心智模型,工作还没开始做,一个上午就报废了。

转折点在一次认知替换。他自己的原话是:"我让 opus 给我方案的时候,他也完全没有把 AI server 层当成一个解。"过去他一直围绕工程解在想,写 cron、串 MCP、找 API,把 AI 放在任务列表的末端,让它做最后那一步总结。真正跑通的版本是把 opencode server 放到中间当常驻层,skill 只定义目标,不严控 SOP,让 AI 自己判断 plaud 的下载页面什么时候可以点下一步、session 断了该不该重试、哪种超时要等、哪种超时要放弃。配上一台 24 小时不下线的 mini 做基础设施,整条链路才跑了起来。

摩擦系数为零的意思也就很具体了:他早上起来不用再登进任何一个后台去检查前一晚到底跑没跑、没跑是因为什么。录音会在该在的地方,转写会在该在的地方,日总结的 markdown 已经生成好摊在桌面上。过去那种"先花半小时修管道再开始今天的活"的节奏没有了。

这段故事的价值主要在那个把 AI 从工具层抬到 server 层的位置变化。把 AI 塞进一个原本为人类设计的工程流水线里,它只能做最弱的那一个环节,每个接口变化都要人类回来缝一次;让 AI 担任流水线的编排者,工程细节退化为它的调用目标,接口变了它自己绕一下就过去了。challen 踩了十次坑才意识到这个差别,后来的人可以直接从结论出发。

同一个挪位动作,在企业软件层面变成了东旭昨天在 QCon 圆桌上下的那个判断:传统 SaaS 已经没戏了。马工被拉上台做了半小时的对谈,结论是软件公司要么极度贴近业务(做 FDE 定制交付),要么极度贴近机器(做 infra 和 runtime),"中间那一层的软件越来越没价值"。

群里 fan-tastic.z 昨天刚被通知要调到公司新成立的 FDE 组,陈浩说他司的私有化交付已经在走 FDE 路线,一个技术经理承担了过去技术经理加研发小组的全部活。多喝热水一句更直接:"未来岗位应该都是 FDE 了。"东旭自己现场还补了一刀:他把 kubernetes 完全交给 agent 管理,从此不用再写 yaml。

这个判断在外部数据上站得住脚。Andreessen Horowitz 今年一月专门写了一篇《The Palantirization of everything》,说"We're basically Palantir, but for X"已经成为 pitch deck 标配。Palantir 最近一个季度收入 14 亿美元、同比增长 70%、利润率 43%,毛利率 56%,Rule of 40 分数飙到 127(Motley Fool)。Alex Furmansky 在三月写得更直白:agentic AI 的世界里产品和部署不可分,SaaS 公司和服务公司之间的界线在消失(Magnetic Growth)。卖点从 license 变成了"用软件+工程师+部署能力把客户现场直接打下来",per-seat 的定价结构随之瓦解。

challen 在个人工作流上做的事和马工在台上讲的事,底层是同一个判断。过去把杠杆压在工程细节这一侧,现在挪到让 AI 直接交付结果这一侧。过去把杠杆压在软件功能这一侧,现在挪到把问题解决在客户现场这一侧。每一次挪位都要放弃一大块熟悉的抽象(cron 和 MCP、SaaS 的 per-seat 定价、产品团队的交付边界),换来的是摩擦系数真的降下来了。群里已经在这条路上反复验证。


也值得知道

Anthropic 要求政府 ID 和人脸扫描:传言 Opus 4.7 本周上线,新的身份验证流程同时推进。群里 Feisky 已经把部分场景转接到 Copilot,理想发了 GPT-5.4-Cyber 需要申请审批,章佳杰按 API 计费的上月账单超过一万美元。KYC 和模型竞争挤在同一周,很多人正在重新计算依赖成本。(Decrypt

Khanmigo 的真实采用数据:过去一年从 6.8 万涨到 140 万用户,380+ 学区合作,但平均学生使用率卡在 5% 以下。只有设了学区级学习目标、课表里挤出练习时间的学校能突破这条线(TutorbaseLEVI)。和工具好不好用关系小,和组织有没有配套关系大。

Allbirds 改名 NewBird AI 股价大涨 373%:叙事红利在公开市场继续兑现。Anthropic 最新一轮融资估值传到 8000 亿美元,接近 OpenAI。群里 Chase W. 的判断比较冷静:data center 像房地产,融资能力强的上市公司都有动机搞一块地。(AINVEST


本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter:yage-ai.kit.com

鸭哥每日AI要闻

每天鸭哥的Agent会在深度领域调研后发送一封邮件。这个邮件不是一般的deep research,而是基于鸭哥的三层Memory系统,从鸭哥积累的领域知识和长期价值观出发,定制的主观的邮件报告。目前这是一个测试项目,旨在验证鸭哥的三层Memory系统和Endless Survey项目的有效性。

Read more from 鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-21 > 今天刷屏的几个数字都很大:600 亿、1000 亿、1.75 万亿、5 GW。但推动这些数字真正落地的,是几条不在新闻通稿里的约束:编程行为数据的入口、Windsurf 前例里定义过的员工契约结构、以及太空里散热板的平方米数。鸭哥昨天三篇文章正好各自卡在一条约束上。 懒人包:SpaceX 今天给 Cursor 开了两张牌,要么年内 600 亿收购,要么改付 100 亿做技术合作。鸭哥 昨天那篇 把这笔交易和 Inflection、Windsurf、Groq 这两年流行的反向 acqui-hire 放在一条线上看:600 亿面值 vs 员工真实 payout 已经被 Windsurf 示范过怎么脱钩。同一天 Musk 把太空数据中心"30-36 个月内成为最便宜 AI 算力"写进了 IPO 路演叙事,鸭哥 另一篇 用 ISS 的 126 kW 说明散热是物理差距,不是融资差距。第三条线是鸭哥 UI 设计工作流那篇,拆出格式转换、保真度、跨介质沟通三个互锁机制,AI 只啃动了最浅的那个。Figma 股价 4 月 17 日当天跌...

[鸭哥 AI 手记] 2026-04-20 > 一组动词需要一个名字才能进简历、进 JD、进采购单。Harness engineering 这三个月的火,本质是给一堆没法定价的实践工程师起了一个能开发票的名字。也是这个月,腾讯云、阿里云百炼、Microsoft Copilot 同时收紧补贴,那张让人敢拿这套实践去练手的廉价入场券正在涨价。 懒人包:鸭哥昨天那篇 Harness Engineering 到底是什么 解释了一个反常现象,AI 圈每隔几周就有新词被推上来又被换掉,harness 持续了三个月还没散。背后机制不是新原则,是给一组散落动词起了一个硬名词。当天群里还有第二条主线,腾讯云 Coding Plan 4 月 20 日下架换成按 token 计费,阿里云百炼 Lite 4 月 13 日停止续费,Microsoft 把 Opus 4.5/4.6 从 Pro+ 移除只留 4.7,cc club 第三方中转半年从 1699 涨到 2499,理想说"国内定价又把新手的路堵死了"。两条线指向同一件事,AI...

[鸭哥 AI 手记] 2026-04-19 > 当模型接口统一成一个 HTTP endpoint 之后,真正贵起来的是那些没法被 endpoint 封装的东西:能被复利的数据、能阻止账单失控的治理、能追溯出处的验证链。鸭哥昨天连发三篇文章,今天群里正好在各自的位置上把这条线拖出来。 懒人包:Cursor 以 $50B 估值融 $2B+,纯 API 消费的独立编程工具一家没做到 $100M ARR,鸭哥那篇文章把这件事讲透:没有自研就没有数据飞轮。jay luo 在群里直接问 OpenRouter 要不要用,鸭哥两个小时内发了一篇校准文章,结论是门槛低,但三个隐性成本可以把 5.5% 手续费放大一个数量级;jay luo 看完就打消了念头。yousa 买羊毛烘干球被伪造学术引用坑到,鸭哥顺手做了一期调研,NewsGuard 同期的数据显示 AI 内容农场每月新增 300-500 家。就在今天 Vercel 被攻破,入口是 Context.ai 这个第三方 AI 工具的 OAuth。三件事放在一起,信任链在同一个时间窗口从两端同时被磨薄。 Cursor 的 $50B...