[鸭哥 AI 手记] 2026-04-15

> 昨天写完 AI 教育那篇长文，晚上看群里 challen 的复盘，白天又听了马工在 QCon 的圆桌，三件事讲的居然是同一件事。直觉告诉我们使劲的地方，和真正能撬动结果的地方，经常差着一步。挪过去的动作本身不难，难的是承认自己长期在错的位置上使劲。

懒人包：鸭哥昨天那篇 AI 教育长文的起点是一个硅谷工程师给孩子开 Khanmigo 的直觉，终点是 Khanmigo 自己的数据：学生日常使用率卡在 5%，真正能突破这条线的学校都做对了一件事，把 AI 嵌进课表和课堂设计本身。群友 challen 花了一整年、重写十多次才把每天 12 小时录音的自动转写跑通，卡住他的不是哪个脚本写得不够好，而是他一直把 AI 放在流水线末端做总结，直到把 opencode server 抬到中间当编排层，整条链路才跑了起来。同一天马工在 QCon 圆桌上说传统 SaaS 已经没戏，Palantir 最近一个季度同比增长 70%、利润率 43% 给这句话做了注脚。三件事其实都在做同一个动作：把杠杆从习惯放的位置，挪到真正起作用的位置。

AI 教育的杠杆点，可能从来就不在学生那一侧

这篇长文的起点是一个很熟悉的场景。硅谷工程师家的孩子数学跟不上，打开 Khanmigo，每天陪娃做半小时 AI 家教，一段时间之后成绩回来了。朋友圈里这类故事已经够多，背后压的教育学共识也够扎实：Bloom 的 Two Sigma 说一对一辅导比班级教学高两个标准差，Vygotsky 的最近发展区告诉你要把练习卡在学生当前能力的边缘，Black 和 Wiliam 的形成性评价强调实时反馈。这三块拼在一起，AI 时代很自然地就做成了给每个孩子配一个专属 AI 老师的样子。我自己最早写 AI 教育相关的东西，也默认是在这套图景里打转。

但坐下来看落地数据，这个图景就开始松动。Khanmigo 这两年是 AI 教育里喊得最响的案例，用户从 2023-24 学年的 6.8 万涨到 2024-25 学年的 70 万，合作学区从 45 个扩到 380 个（Khan Academy / K-12 Dive）。数字漂亮，但 Learning Engineering Virtual Institute 追踪下来发现一个挺打脸的现象：大多数学校真上线以后，学生日常使用率卡在 5% 以下。能把这条线突破的学校都做了同一件事，学区层面定了明确的学习目标，课表里挤出固定的 AI 练习时间（LEVI）。没做这一步的学校，像 Dallas ISD，直接把合同取消了。AI 一对一产品好不好用，决定不了采用曲线。能决定的是这堂课本身是怎么设计的，以及组织上有没有配套跟上。

更底层的证据其实回到 Two Sigma 原文本身。Education Next 前阵子把 Bloom 1984 年那个原始实验重新翻了一遍，发现那两个标准差的效果主要来自两条机制：mastery learning，学生过不了这一关就不让他跳到下一关；formative feedback，老师实时看到学生哪里卡住然后介入。所谓一个人专门盯着另一个人这层人情连接，在数据里其实贡献有限（Education Next）。Hattie 的 Visible Learning meta-analysis 也指向同一个方向，班级大小的效应量只有 0.21，教学方法本身的效应量在 0.4 到 0.7 之间。换句话说，把班从 40 人砍到 20 人让老师多陪每个孩子一点，这件事对学习效果的拉动只能勉强算有意义。真正拉开差距的变量藏在另一个维度上，就是这节课设计得怎么样、练习怎么组织、反馈怎么给。

NBER 最近发的那篇 Khan Academy field experiment 把这个结论坐实了。Mindspark 被调整为占用 25-50% 的课堂时间、配一个实验室管理员之后，18 个月能跑出 0.22 个标准差的数学提升（NBER w34683）。AI 被嵌进主课堂的时间表才有这个量级的效果，拿回去当课后补救工具则很难做到。顺着这条数据再回头看那个硅谷工程师的直觉，他的方向大致是对的，只是他手里那把杠杆落在课后自学这个位置，能撬动的空间有限。

群里的讨论这两天正好从三个不同角度戳到了这件事。黄一凯抛了一句"高考不是知识考试，是社会分级考试"，这是评价体系决定论的版本。只要考核方向不变，AI 省出来的时间不会被投进课堂设计，只会被导回去多刷题、多覆盖边缘知识点。这条担忧承认 AI 的作用，也提醒杠杆压进去之前，先看看杠杆另一头挂的是什么。

Adrian 从厦门给了一个反方向的样本。他和当地教培公司合作做 AI 线下课，每期七八个孩子，小学一年级到高中的都有，用 AI 做自己的游戏和网站，他说"反馈都非常好"。他的切入点和我写那篇文章时想清楚的那个点其实是同一个：AI 落在对的位置上，是让一堂原本很难设计的项目课能够落地，而不是跟老师抢陪孩子的那一对一时间。黑板分享的场景更近一些，他用 AI 出卷、孩子做、AI 判卷、针对弱项再出下一张卷。这一下就把原本占掉老师大半备课时间的出题和反馈环节自动化了，老师留出来的时间可以重新投回到课堂设计本身。

三个人的场景看起来毫不相关，一个在东亚应试教育的评价体系里，一个在线下培训班里做项目课，一个在日常家庭作业里补弱项。但他们都在往同一个方向使力，把课和作业这一层的制造成本压下来，让主流叙事里那个"学生端 AI 老师"的想象退到辅助位。

从 challen 的摩擦系数归零，到 SaaS 的退位

群友 challen 发了一篇复盘，讲他花了整整一年，才把一个看起来简单的任务跑到摩擦系数为零：每天 12 小时以上的 plaud 录音自动下载、上传腾讯会议转写、再回来汇总成每日复盘。听起来就是几个脚本串一串的事，但他反复重写了不下十次。

每一版都败在不同的工程细节上。最早的方案是写一套 cron，定时去敲 plaud 的下载接口。plaud 自己没有稳定的官方 API，他只能绕着 web 会话走，每隔一段时间 cookie 失效，cron 就静默跑空，第二天早上打开一看，昨天的录音一条都没到。换 MCP 浏览器方案之后，好日子就那么几天，赶上服务端忙的时候一个操作要转十几秒，连着点几步就超时退出，下载到一半的文件还得手动清理。后来切到 comet 这类 AI 浏览器，稳定性也撑不住一整条长链路，经常做到第三步就挂。5 小时的录音单个文件上传要十几分钟，中途 session 一断就得整条重来，重来又要人工回去判断上一次停在哪里。

真正消耗精力的是每周都有两三天要回来维护这条管道，单点 bug 反而是小事。新的 API 鉴权方式上线就得重写一块，腾讯会议那边页面改版就得重新录一遍自动化脚本，MCP server 升级就得对着日志去猜是哪个字段的兼容出了问题。每修一次都要搭脑子进去重新加载整条流程的心智模型，工作还没开始做，一个上午就报废了。

转折点在一次认知替换。他自己的原话是："我让 opus 给我方案的时候，他也完全没有把 AI server 层当成一个解。"过去他一直围绕工程解在想，写 cron、串 MCP、找 API，把 AI 放在任务列表的末端，让它做最后那一步总结。真正跑通的版本是把 opencode server 放到中间当常驻层，skill 只定义目标，不严控 SOP，让 AI 自己判断 plaud 的下载页面什么时候可以点下一步、session 断了该不该重试、哪种超时要等、哪种超时要放弃。配上一台 24 小时不下线的 mini 做基础设施，整条链路才跑了起来。

摩擦系数为零的意思也就很具体了：他早上起来不用再登进任何一个后台去检查前一晚到底跑没跑、没跑是因为什么。录音会在该在的地方，转写会在该在的地方，日总结的 markdown 已经生成好摊在桌面上。过去那种"先花半小时修管道再开始今天的活"的节奏没有了。

这段故事的价值主要在那个把 AI 从工具层抬到 server 层的位置变化。把 AI 塞进一个原本为人类设计的工程流水线里，它只能做最弱的那一个环节，每个接口变化都要人类回来缝一次；让 AI 担任流水线的编排者，工程细节退化为它的调用目标，接口变了它自己绕一下就过去了。challen 踩了十次坑才意识到这个差别，后来的人可以直接从结论出发。

同一个挪位动作，在企业软件层面变成了东旭昨天在 QCon 圆桌上下的那个判断：传统 SaaS 已经没戏了。马工被拉上台做了半小时的对谈，结论是软件公司要么极度贴近业务（做 FDE 定制交付），要么极度贴近机器（做 infra 和 runtime），"中间那一层的软件越来越没价值"。

群里 fan-tastic.z 昨天刚被通知要调到公司新成立的 FDE 组，陈浩说他司的私有化交付已经在走 FDE 路线，一个技术经理承担了过去技术经理加研发小组的全部活。多喝热水一句更直接："未来岗位应该都是 FDE 了。"东旭自己现场还补了一刀：他把 kubernetes 完全交给 agent 管理，从此不用再写 yaml。

这个判断在外部数据上站得住脚。Andreessen Horowitz 今年一月专门写了一篇《The Palantirization of everything》，说"We're basically Palantir, but for X"已经成为 pitch deck 标配。Palantir 最近一个季度收入 14 亿美元、同比增长 70%、利润率 43%，毛利率 56%，Rule of 40 分数飙到 127（Motley Fool）。Alex Furmansky 在三月写得更直白：agentic AI 的世界里产品和部署不可分，SaaS 公司和服务公司之间的界线在消失（Magnetic Growth）。卖点从 license 变成了"用软件+工程师+部署能力把客户现场直接打下来"，per-seat 的定价结构随之瓦解。

challen 在个人工作流上做的事和马工在台上讲的事，底层是同一个判断。过去把杠杆压在工程细节这一侧，现在挪到让 AI 直接交付结果这一侧。过去把杠杆压在软件功能这一侧，现在挪到把问题解决在客户现场这一侧。每一次挪位都要放弃一大块熟悉的抽象（cron 和 MCP、SaaS 的 per-seat 定价、产品团队的交付边界），换来的是摩擦系数真的降下来了。群里已经在这条路上反复验证。

也值得知道

Anthropic 要求政府 ID 和人脸扫描：传言 Opus 4.7 本周上线，新的身份验证流程同时推进。群里 Feisky 已经把部分场景转接到 Copilot，理想发了 GPT-5.4-Cyber 需要申请审批，章佳杰按 API 计费的上月账单超过一万美元。KYC 和模型竞争挤在同一周，很多人正在重新计算依赖成本。（Decrypt）

Khanmigo 的真实采用数据：过去一年从 6.8 万涨到 140 万用户，380+ 学区合作，但平均学生使用率卡在 5% 以下。只有设了学区级学习目标、课表里挤出练习时间的学校能突破这条线（Tutorbase、LEVI）。和工具好不好用关系小，和组织有没有配套关系大。

Allbirds 改名 NewBird AI 股价大涨 373%：叙事红利在公开市场继续兑现。Anthropic 最新一轮融资估值传到 8000 亿美元，接近 OpenAI。群里 Chase W. 的判断比较冷静：data center 像房地产，融资能力强的上市公司都有动机搞一块地。（AINVEST）

本期素材来自 AI Builder Space 社群讨论与公开 AI 行业信息的交叉验证。

本文由AI综合领域调研和微信群聊自动生成。请注意甄别幻觉。

订阅本 newsletter：yage-ai.kit.com

鸭哥每日AI要闻

[鸭哥 AI 手记] 2026-04-15

[鸭哥 AI 手记] 2026-04-15

AI 教育的杠杆点，可能从来就不在学生那一侧

从 challen 的摩擦系数归零，到 SaaS 的退位

也值得知道

[鸭哥 AI 手记] 2026-04-21

[鸭哥 AI 手记] 2026-04-20

[鸭哥 AI 手记] 2026-04-19