Playbook · Course Content Operations
把课程当软件来生产
传统课程团队是项目制流水线 ——SME + ID + 写手 + 媒体 + QA 串行,每门课 3-6 个月一交付。AI Native 课程团队是产品制工厂 ——5-15 人编辑团调度十几个 agent,大纲 / 文稿 / 媒体 / 评估 / 反馈五段流水线连通,2-3 周一门、每门 telemetry 持续迭代。关键不是工具选哪家,而是团队拓扑、工作流、质量红线、启动节奏四件事一起设计 ——任一项缺失都会让"AI Native"退化成"AI-enabled"。
从心智转换走到 90 天启动
六站,严格按"先想后做"排序。01 先把心智从"项目交付"转成"产品流水线" ——这是其它五站的前提。02 给出团队拓扑骨架。03 是核心 ——五段流水线 + agent 角色 + 编辑分工。04 工具栈五层选型。05 治理红线 (above-the-loop 但不撒手)。06 落到 90 天具体里程碑。综合判断段汇成 punch list。
把课程从项目改成产品 ——心智先转
所有 AI Native 课程团队的失败 ——99% 是工具买齐了、心智没换。继续按"项目"思路做事:写完一门课就关 Jira ticket、SME 一个人对一门课、团队按学科分,然后困惑"为什么我们用 AI 还是慢"。原因是 ——AI 加速的是单门课的某个环节,而真正的 leverage 在工作流本身被重写后才出现。
项目思维 vs 产品流水线思维
三条心智转换是不可绕的:(1) 课程不是项目,是产品 ——版本化、telemetry、迭代。一门课"上线"不是终点,是数据开始累积的起点。(2) 团队不是按学科,是按流水线段。学科是 agent 的事 (RAG 锚定到学科知识库),人按流水线段分工:大纲编辑、文稿编辑、多媒体编辑、评估编辑、数据分析师。(3) 产出的不是"一门课",是"一个 SKU 库"。同一份大纲可生成多个版本 (难度、语言、形态),用 telemetry 决定保留哪些。
Khan Academy 2023 年与 OpenAI 合作首批接入 GPT-4,2024-2025 年逐步扩张 Khanmigo (AI tutor)6。到 2025 年底覆盖 180+ 国家、30+ 语言 ——核心团队没有按比例扩张6。这一类 leverage 来自同一份课程内容被 AI 反复重组成不同形态:文字 / 视频 / 对话辅导 / 个性化练习。这是产品思维 ——课程是可塑产品,不是固定项目交付物。🟢 high
"买几个 AI 工具就行,工作流照旧。" ——错。这是 AI-enabled 路径,你最多能拿 30-50% 效率改善 (每个 SME 用 Copilot 写得更快)。AI Native 的 leverage 跨数量级,但前提是工作流被重写。继续用项目模板,你买的是 Copilot,卖的还是 SME 的人工。Klarna 2024 用 AI 减员 700 人客服、2025 倒车重新招人,核心原因就是工作流没真正重设,只是把 AI 塞进旧流程15。
团队拓扑:5-15 人,三类角色
规模建议:5 人 minimum viable,15 人 sweet spot。5 人以下任何一人请假流水线就停摆;15 人以上 Conway's law 起反作用 ——协调成本超过 AI 加速带来的 leverage。AI-Native 工程团队的研究估算:3-5 名资深 + AI 增强 ≈ 8-12 名传统团队12。教育业把这种工程团队结构搬到内容生产线的具体打法,8allocate 的 Agentic AI in Education playbook 给出过一份系统化模板13。教育内容团队这个比例略小 (因为评审环节人类不可替代率更高),但方向相同。
角色按流水线段分,不按学科分
| 角色 | 传统团队 | AI Native 团队 | 人数 |
|---|---|---|---|
| 课程产品负责人 | 课程主任 (按学科) | 按学习目标族 (ILO/CLO/PLO) | 1-2 |
| 学科编辑 | SME (subject matter expert) | 事实/教学法 reviewer,每人覆盖 1-2 学科 | 2-6 |
| 多媒体编辑 | 视频导演+设计师+剪辑 | 统一角色,监审 video/visual/audio agent 产出 | 1-3 |
| 评估编辑 | 测评专家 | 设计 rubric+monitor agent grading | 1-2 |
| agent 工程师 | 无 | 建+维 agent 工作流,prompt + RAG + eval | 1-2 |
| 数据分析师 | 偶尔外包 | 常驻,closes the loop 把 telemetry 喂回上游 | 1 |
| 写手 / 写 PPT / 录音员 | 有 (项目制外包居多) | 无 ——agent 全替代 | 0 |
| 独立 instructional designer | 2-4 人 | 变成 agent + 由产品负责人监督 | 0 |
把这张表压成一句话:消除"做事的人",只保留"判断的人"和"调度的人"3。CourseFactory AI 2026 年的产品 ship 出来的三个核心 agent ——AI Producer / AI Instructional Designer / AI Content Creator ——分别对应了传统三个角色,而人类只保留 reviewer 和 product owner 位置4。同期 Disco 推出的三 agent 矩阵 ——Learning Design Agent + Operations Agent + Learning Coach ——是另一条路径的同形态实现5。🟢 high
单位经济目标
AI Native 团队的财务指标必须能落到 每人 $300K-$1M 年产值。传统教育内容公司平均人均产值 $80-150K;能做到 $300K+ 才说明 leverage 真正 kicked in。Cursor 类 AI Native 工程公司做到 $3.3M/人;内容业不会有那么高 (因为编辑环节有人类不可压缩成本),但比传统 3-5x 是合理目标。如果跑了 6 个月还在 $150K/人附近,说明工作流没真正重设。
盯着你 (准) 团队的 org chart 问 ——拆掉每个人,谁的工作 AI 可以接管 80% (那个人变 reviewer 或被去掉),谁的工作不可被替代 (那个人是骨架)。如果不可替代的人 < 5 或 > 15,你的 scope 设错了 ——前者太单一,后者太宽。
五段流水线:agent 编辑部的核心机制
这是整个 playbook 的物理核心。一门课从命题到上线再到下一版迭代,经过五段。每一段都有"agent 先做 → 编辑审 → 进入下一段"的内部循环。最后一段的输出回流到第一段,形成闭环。
每段的关键设计
Stage 1 大纲 ——产品负责人主导,agent 副驾。给 outline agent 一个 prompt 包含目标受众、学习目标 (ILO/CLO)、prerequisite、deliverable 类型,产 3-5 个版本大纲;产品负责人选 1 个 + 改 + 锁定12。不要让 agent 单独决定学习目标 ——这是教学法红线,留在第 5 节展开7。
Stage 2 文稿 ——学科 agent 用 RAG 写,学科编辑审。这一段是 hallucination 高发区。机制设计:agent 必须 cite 内部知识库 (你审过的教材、已上线课程、wikipedia 锚定段),任何无 source 的事实声明被自动拒绝。学科编辑审稿时重点检查 ——事实 / 教学顺序 / 例题恰当性。研究显示8:RAG 显著降低 hallucination,但不能消灭,所以审稿环节不能省。🟢 high
Stage 3 媒体 ——agent 产视频/图/音,多媒体编辑审。Synthesia 类工具把脚本变 avatar 视频,APA 案例从"每周一支"变到"每天 2 支" ——50% 时间缩减9;Coursera 自己也把 Synthesia 集成进了课程制作流程14。视觉走 Midjourney / Adobe Firefly,音频走 ElevenLabs 多语言克隆。多媒体编辑这一岗位是 quality gate ——视觉调性、节奏、文化敏感性人类不可替代。
Stage 4 评估 ——eval agent 产 rubric + 题库,评估编辑监督。Rubric 用 RubiSCoT 类框架结构化生成 (多维评估:认知层级、教学目标对齐、可执行性)7。题库由 agent 出,但不能让 agent 独立打分 ——2025 年研究显示教师对 autograding 不信任,只信 narrative feedback11。AI 出题 + AI 写反馈;打分留人或半监督。
Stage 5 发布 + telemetry ——数据分析师常驻。课程上线那天起埋点:completion rate、mastery rate、time-to-mastery、abandon point、learner feedback NLP 分析。每周 review,异常 (e.g., 某一节 abandon rate > 30%) 自动触发"回 Stage 1 重设"的 ticket。这是闭环的关键 ——没有 Stage 5 → Stage 1 的回流,你做的是 AI-enabled 课程批量化,不是 AI Native。
Day 0: 产品负责人写命题 brief (目标:8-12 岁少年,8 课时,目标 ILO 5 条)。
Day 1-2: outline agent 产 5 个大纲,产品负责人选 + 改 + 锁。
Day 3-5: 8 个学科 agent 并行写 8 课时文稿 (每课时 1 agent),用 RAG 锚定到 Python 官方文档 + 你的内部题库;学科编辑两个并行审,边审边让 agent 改。
Day 6-9: 多媒体编辑跑 Synthesia + Midjourney,每课时 1 短视频 + 2-3 插图;同步 ElevenLabs 中英文配音。
Day 10-12: eval agent 写 rubric + 题库 (每课时 5-10 题),评估编辑审,做 1 轮 dry run 测试题难度分布。
Day 13: 集成发布到 LMS,埋点。
Day 14+: 第一批学习者进入,telemetry 开始累积。
总时长 14 天,核心工作量 ≈ 30 人天 (2 个编辑 × 14 天,加 agent eng 启动)。传统团队同样课程通常 60-90 天,8-12 人 ≈ 200-400 人天。Leverage 大约 10x,这是 AI Native 在课程业的现实预期。
工具栈五层 ——选型与自建判断
工具栈先把结构想清楚再选具体品牌。五层从底到上 ——模型、orchestration、内容生成、eval/QA、telemetry。每一层都有 buy vs build 的判断,默认全 buy ——只在某一层真的影响差异化时才考虑自建。
| 层 | 角色 | 推荐选项 (2026) | Buy / Build |
|---|---|---|---|
| 1. 模型层 | 底层 LLM,多模型路由 | Claude (nuanced 文本) + GPT (breadth) + 学科专 (math/code) | Buy,多供应商 |
| 2. orchestration 层 | agent 编排、prompt 管理 | LangChain / CrewAI / AutoGen / 自建薄层 | Build (薄) |
| 3. 内容生成层 | 视频/图/音频/交互 | Synthesia · Midjourney · ElevenLabs · 自建交互 | Buy |
| 4. RAG / 知识层 | 事实锚定,减少 hallucination | 向量库 (Pinecone / Weaviate) + 自家知识图谱 | Build (自家课程语料是差异化) |
| 5. eval + telemetry | 质量评估 + 学习者数据回流 | RubiSCoT 类 rubric + 内部 telemetry stack | Build |
Buy vs Build 三条判断
(a) 模型与生成工具:全 buy。你的差异化不在模型 ——这一年里 Claude / GPT / Gemini 谁第一会反复换,锁死一家会让你被供应商绑架。多模型策略 + 抽象层,模型可替换。视频/视觉/音频更没必要自建,Synthesia 类工具 50% 时间节省是真实的9。
(b) RAG 知识库:自建。这是你唯一的护城河。你审过的课程、你的学科语料、你的学习者数据 ——这堆东西其它公司没有,而它直接决定 hallucination 率和教学一致性。自建并不昂贵 ——开源向量库 + LangChain 几周就能跑。不自建 RAG,你的课程就是 ChatGPT 通用质量,毫无 moat。
(c) eval + telemetry:自建。第二条护城河。你定义的 rubric ("我们认可什么是好课程") + 你收集的 telemetry ("我们的学习者在哪些点 abandon") 是 compound 资产。这一层早晚要自建,越早越好。RubiSCoT 类框架可参考但不要直接 copy ——它是学术评估,你需要 production 版7。
模型:Anthropic Claude API (主) + OpenAI GPT (备份) ——via Vercel AI Gateway 路由。orchestration:CrewAI 上薄薄一层自建 (定义 agent 角色 + prompt 模板 + retry 逻辑)。内容生成:Synthesia (视频) + Midjourney (图) + ElevenLabs (音频)。RAG:Pinecone 向量库,索引 6 类语料 (审过的课程 / 学科教材 / 教学法论文 / 历史 telemetry / 命题题库 / 错答库)。Eval:自家 rubric (16 维度) + Claude 作 judge agent。Telemetry:Mixpanel + Looker + 自建周报 dashboard。总月度软件成本 ≈ $3-8K / 8 人,远低于 8 人工资。
"我们 AI Native,索性把 LMS 也自建。" ——错。LMS 是已成熟的"道路",buy off-shelf (Canvas, Moodle, Thinkific, 国内的睿小集) 节省 12-18 个月。你的 leverage 在 stack 的上半 + 知识层 + telemetry,不在 LMS 本身。等团队规模 30 + 营收 $10M+ 再考虑自建 LMS,90 天启动期绝对不要碰。同理 ——不要 fine-tune 底层模型 (90% 团队浪费 6 个月在这上面),用 RAG + prompt engineering + few-shot 就够。
治理与质量:三条红线
AI Native 不等于撒手 ——它是 "human above the loop, not out of the loop"3。三条红线把"什么时候人必须回到 in-the-loop"明确划出来。不划红线,你就是 Klarna 模式 ——把人从工作流剥离,等质量崩盘再倒车15。
红线一:事实红线
任何 AI 产出的事实陈述 (数据、人名、年份、定义、公式),必须 RAG 锚定到可追溯 source。无 source 的事实主张被流水线自动拒绝,不进入下一段。学科编辑审稿时随机抽查 source 真实性 (因为 LLM 偶尔会"幻觉 citation")。教育内容的事实错误成本比 marketing 内容高一个数量级 ——一旦扩散给学习者,erratum 极难追回。🟢 high8
红线二:教学法红线
AI 不能独自决定 cognitive load、scaffolding 顺序、age-appropriateness。这三件事必须有产品负责人或教学法编辑签字才能锁定10。LLM 训练数据里有 Wikipedia 但没有"针对小学 4 年级如何引入分数概念"的隐性教学法知识。你团队里至少要有一个有真实教学经验的人 ——不是 instructional designer 头衔,是真的教过课的。
红线三:评估红线
AI 可以辅助 grading 但不能独自打分 ——尤其在 high-stakes (升学、认证) 评估上。研究显示 60%+ 教师能用 AI rubric 但都会做修改;教师"重视 AI 的 narrative feedback,但不信任 autograding"11。设计上:formative assessment 可放 above-loop (AI 写 + 推送);summative assessment 必须 human-in-the-loop (AI 辅助 + 人复核)。🟢 high
红线触发的三种 above-loop 机制
- 抽样审核:编辑每周抽 N% (建议 10-20%) AI 通过的内容做全面 spot-check,确保质量底线。
- 红线触发:任何触及三条红线的产出强制人审,不可绕过。配套 telemetry:红线触发率高的 agent 配置回炉。
- 学习者反馈回流:telemetry 异常 (mastery rate < 50%、abandon > 30%、negative feedback NLP 阈值) 立即触发人工 review。
Klarna 2024 用 AI 替代 700 客服 ——表面成功;2025 倒车15。客服失败的代价是单个客户不满,可恢复;课程内容的事实错误会被千个学习者吸收,可能永远不被纠正。课程业的 above-loop 红线必须比客服业更严。把人完全剥离 ——即便是 routine 内容 ——就是把 Klarna 的故障模式买下来。本讲稿的立场是 "AI 先产,人审,数据闭环",而不是 "AI 全做,人不在"。后者在课程业是不可行的设计选择。
一个"美国宪法历史"课程的 Stage 2 文稿,agent 写 "1789 年 9 月美国国会通过权利法案"。事实红线机制 ——agent 必须 cite 出处。RAG 检索内部库:no match。流水线自动拒绝,要求 agent 重写或附 source。Agent 二次产出 + cite Library of Congress 网页。学科编辑随机抽 verify:Library of Congress 显示权利法案 1789 年 9 月在国会提议,1791 年 12 月才批准生效。Agent 第三次产出修正为准确版本。这种闭环必须发生在发布前,不能依赖学习者举报 ——一旦上线传播,纠错代价高 20x。
启动 90 天:Day 1 / 30 / 90 硬里程碑
所有前 5 节的内容只有 ship 才算数。90 天是一个能验证整套设计的 minimum window ——足够 ship 第一门课、积累第一批 telemetry、定型 v0 工作流。
Day 0-7:招种子,定 scope
- 招 2 个种子:1 个课程产品负责人 (有真实教学经验,不要纯做过 ID 没教过课的) + 1 个 senior agent 工程师 (会 prompt engineering + RAG + 至少跑过一个 production agent)。
- 定第一门 pilot 课的 scope:选你最熟的学科、最具体的目标受众、最有 telemetry 历史的话题。Pilot 不是 prove "AI Native 行不行",是 prove "我们的工作流定型对不对"。
- 采购:Claude + GPT API、Synthesia 试用、Midjourney、Pinecone 免费层 ——总月度 < $1500。
Day 8-30:ship 第一门
- 14 天 ship 一门 pilot (按 s3 的 Day-by-day 走);剩 16 天做 retro + 工作流文档化。
- 硬里程碑 D30:第一门 AI Native 课上线,完成 ≥ 30 个真实学习者样本,事实红线零触发被 ship 出去。
- 同时招 3-5 人填齐角色 (学科编辑 2、多媒体编辑 1、评估编辑 1、数据分析 1)。
Day 31-60:扩到并行
- 同时跑 3-5 门课。这一阶段考验工作流的可重复性 ——单门 pilot 跑通可能是运气,3 门并行跑通才是工作流定型。
- RAG 知识库从 1 个学科扩到 3-5 个。Eval rubric 从 pilot ad-hoc 升到标准化 16 维。
- 硬里程碑 D60:每门课 elapsed 时间 ≤ 3 周 (单门 4-8 人天);3 门并行跑通;每门通过自家 16 维 rubric ≥ 80 分。
Day 61-90:闭环成立
- 团队扩到 10-15 人。10-20 门课并行。
- 关键 ——Stage 5 → Stage 1 的 telemetry 回流真正发生:第一门 pilot 的 v2 上线,基于 v1 telemetry 修正,而不是纯人审拍脑袋。
- 硬里程碑 D90:团队 throughput ≥ 5-10 门/月;至少 1 门 pilot 课 v2 基于数据迭代 ship;ROI 数据初稿 (人均产值估算)。
不要写自家 LMS ——12 个月陷阱。不要 fine-tune 基础模型 ——90% 团队在这浪费 6 个月,RAG + prompt 足够。不要追多语言/多平台同时上线 ——把一个 SKU 先 ship 透;Synthesia 等会帮你 90 天后再多语言。不要花钱买 marketing ——pilot 课的"市场"是你能控制的早期学习者群,不需要付费推广。不要做 enterprise 客户 ——pilot 阶段单 enterprise 客户会拖死整个 backlog,等 D90 后再说。
四件事一起设计,缺一不可
"应该怎么做"压成 4 件事 + 90 天里程碑。任何一件没做到位,整套设计就退化成 AI-enabled (拿 30-50% 效率改善,不是 leverage 跨数量级)。
第一件:心智先转。课程是产品不是项目 ——版本化、telemetry、迭代;团队按流水线段分工不按学科分;产出的是 SKU 库不是单门课。这一步不动,后面四步白做。可衡量信号:你的 Jira ticket 里"项目"和"产品"哪个词出现更多。
第二件:团队拓扑做对。5-15 人。三类角色 ——产品负责人 (1-2) + 学科 / 多媒体 / 评估编辑 (4-10) + agent 工程师 / 数据分析 (2-3)。删掉传统写手、独立 ID、独立 SME 这些"做事的人"角色,只保留"判断的人"和"调度的人"。目标人均产值 $300K-$1M/年。
第三件:五段流水线 + 数据回流。这是物理核心。大纲 → 文稿 → 媒体 → 评估 → 发布,每段 agent 先做、编辑审、过则入下段;Stage 5 的 telemetry 回流 Stage 1 是闭环关键。没有回流,你做的是 AI-enabled 课程批量化,不是 AI Native。
第四件:工具栈五层 + 三条红线。Buy 模型 / 内容生成工具,Build RAG / eval / telemetry ——这是你的护城河。三条红线 ——事实必须 RAG 锚定、教学法不能 AI 独决、高 stakes 评估不能 autograding ——把 above-the-loop 框死,避免 Klarna 模式。
启动节奏:90 天。D0-7 招 2 个种子 + 定 pilot;D8-30 ship 第一门 (14 天);D31-60 扩团 + 同时跑 3-5 门;D61-90 闭环成立 (基于 telemetry 的 v2 上线)。三个硬里程碑:D30 第一门上线、D60 throughput 3-5 门/月、D90 闭环验证。
一句话收:把课程当软件来生产 ——小团队、agent 流水线、数据闭环、above-loop 红线。剩下的都是细节。
关键不确定性
- 14 天 ship 一门课是 lower bound。pilot 课程的实际工程时间通常 +50-100% (第一次跑总有意外)。把 D30 ship 第一门当下限目标,D45 是合理 stretch。🟡 med
- 人均产值 $300K-$1M 目标的可达性。这是从 AI Native 工程团队基准外推得出,内容业的实际数字目前公开样本极少 ——Khan Academy / Coursera 等不公开 per-team 营收数据。第一年达成 $200-400K/人是更现实的目标。🔴 low
- RAG 自建难度。"几周跑起来" 是理论值,实际语料清洗 / 索引设计 / retrieval 调优常常吃掉 6-12 周。如果你的内部语料质量差 (不一致、版本混乱、版权不清),这一步会拖整个 pilot。诚实评估再下手。
- 监管风险尚未稳定。EU AI Act 2026 年 8 月全面执行,教育 AI 在"high-risk"分类的精确边界尚未完全定案。如果你做 K-12 或 high-stakes 评估,留 buffer 准备额外合规成本。🟡 med
- 团队招聘是最大瓶颈。"既懂教学法又懂 prompt engineering" 的人在 2026 年极稀缺。Day 0-7 招 2 个种子可能实际花 4-8 周。这是最可能拖整个 90 天 timeline 的因素 ——本讲稿假设"找到人就 90 天",但找到人本身可能需要再 60 天。🟢 high
Sources
- Unicrew — Building AI-Native Development Teams in 2026: A Practical Guide (3-5 senior + AI ≈ 8-12 traditional) — https://unicrew.com/blog/building-ai-native-development-teams/
- 8allocate — AI Team Structure: How to Build AI Development Team in 2026 — https://8allocate.com/blog/how-to-build-and-structure-ai-development-team-in-2026/
- Disco — AI for Instructional Design Using the ADDIE Model (2026 Edition) — https://www.disco.co/blog/ai-for-instructional-design-using-the-addie-model
- CourseFactory AI — Multi-agent course creation (AI Producer + AI Instructional Designer + AI Content Creator) — https://coursefactory.ai/
- Disco — AI Agents for Education in 2026: Top 7 Innovations (Learning Design Agent, Operations Agent, Learning Coach) — https://www.disco.co/blog/ai-agents-for-education-2026
- Khan Academy — Khanmigo (GPT-4 integration, 180+ countries by Dec 2025) — https://www.khanmigo.ai/
- arxiv — RubiSCoT: A Framework for AI-Supported Academic Assessment (structured rubric) — https://arxiv.org/html/2510.17309v1
- ResearchGate — Evaluating the Quality of AI-Generated Digital Educational Resources (RAG, hallucination, Delphi + AHP framework) — https://www.researchgate.net/publication/389527785
- Synthesia — APA Case Study: 50% time reduction creating Coursera training videos — https://www.synthesia.io/case-studies/apa
- CITE Journal — AI-Integrated Instructional Design in Higher Education: Tools, Roles, and Challenges (pedagogy red lines) — https://citejournal.org/volume-25/issue-4-25/general/ai-integrated-instructional-design-in-higher-education/
- ScienceDirect — Can students judge like experts? Large-scale study on pedagogical quality of AI vs human formative feedback (teachers trust narrative, distrust autograding) — https://www.sciencedirect.com/science/article/pii/S2666920X25001730
- Digital Learning Institute — AI for Learning in 2026: Tools, Workflows, and Assessment (human-in-the-loop with PLO/CLO/ILO mapping) — https://www.digitallearninginstitute.com/blog/ai-for-learning-in-2026
- 8allocate — Agentic AI in Education: Use Cases, 2026 Trends, Playbook — https://8allocate.com/blog/agentic-ai-in-education-use-cases-trends-and-implementation-playbook/
- Coursera — AI for Video Production course (Synthesia integration case study) — https://www.coursera.org/learn/ai-for-video-production
- Digital Applied — Klarna Reverses AI Layoffs: Why Replacing 700 Failed (cautionary tale on pure replacement) — https://www.digitalapplied.com/blog/klarna-reverses-ai-layoffs-replacing-700-workers-backfired