【学习笔记】文章生成播客(AI Podcast Generation)调研报告
调研日期
调研范围/文档 → 播客音频的提示词、工作流、开源项目与商业方案 说明,便于追溯核实。
1. 概述与核心结论
「文章转播客」的核心范式由 Google NotebookLM 的 Audio Overview(音频概览) 功能确立并带火
(PDF/网页/文本)通过大模型转化为两位 AI 主持人深度对谈的播客音频。其本质是一条 「文本理解 → 对话脚本生成 → 语音合成」 的多阶段流水线。来源:Google 官方博客 - NotebookLM now lets you listen to a conversation about your sources
三句话结论
- 技术上完全可复现的”魔法”并非单一模型,而是「多阶段 LLM 流水线 + 双人设系统提示词 + 双音色 TTS」的组合,社区已有成熟开源复现(Meta NotebookLlama、Mozilla document-to-podcast、Podcastfy)。
- 提示词是灵魂TTS,而是系统提示词中的人设、语气、互动规则与”仅基于源文”的防幻觉约束——NotebookLM 的系统提示词已被社区逆向工程并公开。
- 中文生态已成熟AI、阿里通义、MiniMax、科大讯飞等均提供中文播客生成的完整实践与文档,可直接落地。
2. 标准工作流架构
所有主流方案的架构高度一致,可抽象为 4 个核心阶段:
┌─────────────┐ ┌──────────────┐ ┌──────────────┐ ┌─────────────┐
│ 1. 文档预处理 │ -> │ 2. 脚本生成 │ -> │ 3. 戏剧化重写 │ -> │ 4. 语音合成 │
│ Extract/Clean│ │ Outline+Script│ │ Dramatize │ │ Dual-TTS │
└─────────────┘ └──────────────┘ └──────────────┘ └─────────────┘
提取/清洗文本 生成大纲与对话 润色、加互动、 双音色 TTS
(PyPDF/分块) (双主持、基于源) 人设强化 (克隆/合成)2.1 NotebookLM 疑似内部流程(社区逆向)
社区通过对生成耗时(~5 分钟)与输出的分析,推测其流程为:
- 创建大纲(Create an outline)
- 修订大纲(可能多轮)
- 生成对话片段(Generate dialogue segments)
- 为每位主持人合成 AI 语音(Synthesize AI voices)
来源:Reddit - NotebookLM Audio Overviews: how it works 架构设计访谈:Latent Space - How NotebookLM Was Made
2.2 Meta NotebookLlama 的 4 步流水线(开源、最清晰)
Meta 发布的开源复现,是理解架构的最佳教材:
| 步骤 | 作用 | 使用模型 |
|---|---|---|
| Step 1 — PDF 预处理 | 提取、清洗、分块文本 | Llama-3.2-1B / 3B |
| Step 2 — 转录生成 | 生成双人对话脚本 | Llama-3.1-70B(主力) |
| Step 3 — 戏剧化重写 | 润色成自然、有吸引力的播客稿 | Llama-3.1-8B |
| Step 4 — 语音合成 | 文本转音频 | Parler-TTS / Suno Bark |
来源:NotebookLlama 官方 Cookbook 报道:TechCrunch - Meta releases an open version of Google’s podcast generator 深度解析:InfoQ - Meta NotebookLlama
2.3 Mozilla document-to-podcast 的 3 步蓝图
Mozilla AI 的本地优先(local-first)方案,精简为 3 阶段:
- 文档预处理(Document Pre-Processing)
- 播客脚本生成(Podcast Script Generation)驱动的核心阶段
- 音频生成(Audio Generation)TTS 合成双说话人音频
来源:Mozilla AI Blog - Blueprint Deep Dive: Turn Documents into Podcasts Locally 官方文档:mozilla-ai.github.io/document-to-podcast
3. 提示词(Prompt)设计详解
⚠️ 提示词是决定播客质量的核心。以下按「权威程度」排列。
3.1 ★★★★★ NotebookLM 逆向工程系统提示词(黄金标准)
社区通过让 Deep Dive 功能”泄漏”以及逆向分析,还原了 NotebookLM Audio Overview 的系统提示词。其核心设计要素:
- 双主持人设定「热情的讲述者(enthusiastic storyteller)」+ 一位「冷静的分析师(calm analyst)」
- 5 分钟内完成对源材料的客观且引人入胜的提炼
- 严格仅基于提供的源(strictly from provided sources)——防幻觉的核心约束
- 面向时间受限的学习者
- 包含闲谈(banter)、过渡(transitions)、主持人个性
来源:Baoyu - Google NotebookLM 系统提示词(逆向还原) 来源:TheBigPromptLibrary - notebooklm-10202024.md(GitHub) 来源:Nicole Hennig - Reverse Engineering the System Prompt for Audio Overviews 来源:Reddit - I managed to get Deep Dive to leak out quite a bit of the hidden prompt
逆向提示词的核心约束可提炼为以下要点(用于自建系统提示词时参考):
角色:你是两位播客主持人(A=热情讲述者 / B=冷静分析师)
任务:将给定源材料转化为 5-10 分钟的双人深度对谈
硬性规则:
1. 只能使用提供的源材料中的信息,不得编造(NO HALLUCINATION)
2. 两位主持人有鲜明、一致的人设与说话风格
3. 以自然口语进行,包含问候、过渡、感叹、追问
4. 面向想快速了解要点的忙碌听众
5. 保持客观,同时引人入胜3.2 ★★★★ Mozilla 开源提示词模板(可直接复用)
Mozilla 的 prompt.py 提供了结构化、可工程化的提示词实现,定义了:
- 主持人 persona(姓名、人设、语气)
- 对话生成规则
- 输出格式(按说话人标记的脚本,如
Speaker 1: .../Speaker 2: ...)
3.3 ★★★★ Together AI 的 Pydantic 结构化方案
Together AI 教程采用 Pydantic 模型 定义脚本结构,让 LLM 输出严格结构化的 host/guest 对话,便于下游 TTS 解析:
来源:Together AI - Build an Open Source NotebookLM: PDF to Podcast
优势
,TTS 可精确切分不同说话人。3.4 ★★★ 社区分享的完整系统提示词(Reddit)
Reddit 用户分享了可直接用于 ChatGPT 项目指令的播客生成器提示词,特点是面向任意内容生成对话式播客脚本,社区实测可用。
来源:Reddit r/PromptEngineering - I built a podcast generator prompt for ChatGPT
3.5 ★★★ 提示词设计的最佳实践(跨来源归纳)
| 最佳实践 | 说明 | 来源 |
|---|---|---|
| 明确人设 | 为每位主持人定义独特的性格、背景、语气、说话习惯 | Riverside - 45 AI Prompts for Podcasters |
| 具体化”吸引力” | 不要只写”make it engaging”,要指定节奏(如每 3-5 分钟一个 hook)、停顿、追问 | Medium - The AI Prompt That Turns Podcast Ideas Into Professional Scripts |
| 分段结构化 | 使用 intro / segments / transitions / outro 的分段格式,而非自由文本 | 同上 |
| 定义听众画像 | 描述目标听众的痛点和目标,让脚本更有共鸣 | Riverside |
| 跨模型测试 | 同一提示词在 Claude/GPT/Gemini 上效果不同,需迭代 | HackerNoon - I Built an AI Prompt That Turns Podcast Ideas Into Professional Scripts |
| 强制仅基于源文 | 明确”只能使用提供的信息”,防止幻觉 | NotebookLM 逆向提示词 |
4. 开源项目与参考实现
4.1 Podcastfy(最流行的 Python 替代方案)
- 仓库:github.com/souzatharsis/podcastfy
- 特点(文本、图片)、多语言输出、将 PDF/URL/文本转为播客式对话
- Hacker News 讨论:news.ycombinator.com/item?id=41852401
- 评测:Medium - From PDF to Podcast: The MIT Tool That Goes Beyond NotebookLM
4.2 Meta NotebookLlama(架构最清晰)
- 官方 Cookbook:llama.com/resources/cookbook/how-to-build-notebook-llama
- 实战教程:Analytics Vidhya - Build Your Own NotebookLlama
- 实战教程:Medium - Notebook Llama: An Open Source Guide to Building a PDF to Podcast Workflow
4.3 Mozilla document-to-podcast(本地优先蓝图)
- 仓库:github.com/mozilla-ai/document-to-podcast
- 博客详解:blog.mozilla.ai/blueprint-deep-dive
- 社区衍生:Readme-to-Podcast(把 GitHub README 转播客)
4.4 Open Notebook(隐私优先全功能替代)
- 仓库:github.com/lfnovo/open-notebook
- 特点、比 NotebookLM 更强的定制能力
- 评测:XDA - I Switched from NotebookLM to This Open-Source Tool
4.5 其他参考实现
| 项目/资源 | 说明 | 来源 |
|---|---|---|
| NVIDIA pdf-to-podcast Blueprint | NVIDIA 官方的 PDF 转播客蓝图 | awesome-stars 收录 |
| S. Anand 的 AI Podcast Generator | 把任意文本转双人对话的在线工具 | tools.s-anand.net/podcast/claude.html |
| HuggingFace 博客教程 | 含示例提示词的端到端教程 | huggingface.co/blog/LE15l/make-ai-podcast-using-ai-voices-and-llms |
| Omri Lavi 的实践 | 用 LangGraph 编排的完整 AI 播客流水线 | omrilavi.com/blog/building-ai-podcasts-and-letting-go |
4.6 开源 TTS 模型(用于语音合成阶段)
| 模型 | 说明 | 来源 |
|---|---|---|
| Parler-TTS | NotebookLlama 选用,支持文字描述控制语音风格 | NotebookLlama Cookbook |
| Suno Bark | 多语言开源 TTS | 同上 |
| Zyphra Zonos | 领先的开源 TTS 模型 | SiliconFlow - 2026 播客编辑最佳开源 AI 模型 |
5. 商业工具与平台对比
5.1 核心对比表
| 工具 | 定位 | 核心优势 | 语音克隆 | 全流程 | 来源 |
|---|---|---|---|---|---|
| Google NotebookLM | 标杆产品 | 文档转双人 AI 深谈,体验最佳 | ✅(内置) | ✅ | Google Blog |
| ElevenLabs | 语音引擎 | 业界最佳 AI 语音/TTS,支持 Professional Voice Cloning、时间线编辑 | ✅ | ❌(仅语音) | elevenlabs.io/use-cases/podcasts |
| Wondercraft | 端到端生成 | ”播客界的 Canva”,无需设备/剪辑/配音,脚本→音频→发布 | ✅ | ✅ | wondercraft.ai/tools/ai-podcast-generator |
| Podcastle | 一体化平台 | 录制+编辑+AI 脚本生成 | ✅ | ✅ | cuflow.ai 评测 |
5.2 NotebookLM 的定制能力(重要)
NotebookLM 支持通过 “Customize(自定义)” 按钮提供自定义指令,可控制:
- 主持人语气、聚焦点、输出格式
- 输出语言(支持 50+ 种语言)
- 需删除已有音频概览后用新指令重新生成
来源:Google Blog - NotebookLM update: Audio Overview controls 来源:Google Help - Generate Audio Overview 实战建议:MakeUseOf - NotebookLM’s best feature got much better when I stopped using the defaults 社区自定义指令合集:Reddit - Custom Instructions For AI Podcast 进阶提示词指南:Alex Lawsen - NotebookLM podcasts, but good
5.3 综合对比评测(2026)
- AutoContent API - Best AI Podcast Generators in 2026(10 款横评)
- SparkPod - 7 Best AI Podcast Generators in 2026(NotebookLM / Podcastle / ElevenLabs / SparkPod 对比)
- Cuflow - Best AI Podcast Generators in 2026
- Podcast-Generator.ai - The Best AI Podcast Generator: An Honest Comparison
6. 中文生态方案
6.1 智谱 AI 播客生成实践(★★★★★ 推荐参考)
智谱提供了最完整的中文实现思路文档,流程与 NotebookLM 一致
→ 根据提示词、人设生成对话式文本 → 音频合成。文档含可参考的代码示例(tts.py 等)。6.2 阿里通义音频播客生成
以通义千问为基座,将文档转换为两位 AI 主持人对话形式的播客。
6.3 MiniMax AI 播客生成方案
使用 MiniMax 语音模型 + 语言模型构建完整应用,实现用户输入到播客成品的全流程自动化。
6.4 科大讯飞 AI 电台播客一键生成工作流(★★★★ 工作流蓝图)
提供了非常清晰的中文工作流蓝图:内容输入 → 智能改写 → 视觉生成 → 语音合成 → 成果输出,适合个人创作者或小型团队。
6.5 其他中文工具与报道
| 资源 | 说明 | 来源 |
|---|---|---|
| Monica AI 播客生成器 | 网页/YouTube/PDF/文本即时转播客 | monica.im/zh_CN/ai-podcast |
| TicNote Podcast Generator | 会议笔记/文档转播客,支持逼真 AI 语音 | ticnote.com/zh/features/podcast-generator |
| 行业报道 | 实测 5000 字文本约 2-3 分钟生成约 6 分钟中文音频 | 澎湃新闻 - 五分钟生成一档播客 |
| 制作指南 | 从文本自动生成音频内容的方法,含旁白式播客技巧 | ondoku3.com - AI播客制作指南 |
7. 关键技术难点与研究
7.1 多轮对话的连贯性问题(核心难点)
微软研究院论文《LLMs Get Lost In Multi-Turn Conversation》发现
,LLM 一旦”走偏”往往无法自我恢复。这对长播客脚本的生成(本质是多轮对话)是关键挑战。来源:arXiv - LLMs Get Lost In Multi-Turn Conversation 来源:Microsoft Research 出版物页
实践启示
分段生成 + 显式传递上下文摘要,而非一次性生成全部对话。这正是 NotebookLlama「先转录再戏剧化」两步法的设计动机。7.2 Agentic 编排
- Medium - Building Multi-Turn Conversations with AI Agents: The 2026 Playbookagent 架构模式
- Omri Lavi 的实践LangGraph 编排播客生成流水线
- 评估方法:Langfuse Cookbook - Evaluating Multi-Turn Conversations、LangWatch Cookbook
7.3 NotebookLM 的技术架构访谈(深度)
Latent Space 对 NotebookLM 团队的访谈,涵盖了从文档摄取到播客音频输出的架构与设计哲学,是理解「为什么这样设计」的最佳资料。
来源:Latent Space - How NotebookLM Was Made 关联报道:AInauten - System Prompt Leaks(NotebookLM + Google DeepMind 访谈)
8. 实施建议
8.1 推荐的落地路线(针对本项目自建场景)
基于以上调研,若要在 SelfMediaTool 中自建「文章转播客」能力,建议采用 「开源流水线 + 国产模型」 方案:
[文章输入]
│
▼
[1. 文本预处理] —— 提取正文、清洗、分块(可复用项目现有转录/文本处理逻辑)
│
▼
[2. 大纲生成] —— 用 GLM/通义 生成结构化大纲(避免多轮走偏)
│
▼
[3. 双人脚本生成] —— 核心:系统提示词(双主持人人设 + 仅基于源文约束)
│ 参考 NotebookLM 逆向提示词 / Mozilla prompt.py
▼
[4. 戏剧化重写] —— 8B 级模型即可:加互动、口语化、过渡词
│
▼
[5. 双音色 TTS] —— 智谱/MiniMax/通义 语音,或开源 Parler-TTS/Zonos
按 Speaker 标记切分,分别合成后拼接8.2 提示词最小可行模板(可直接起步)
# 系统提示词(草稿,可迭代)
你是一档双人播客的编剧。两位主持人:
- 主持人A:热情、善于讲故事,擅长用比喻把复杂概念讲通俗
- 主持人B:冷静、理性,擅长补充细节、追问、做总结
任务:基于下方【源材料】,生成一段 {时长} 分钟的双人对话播客脚本。
硬性规则:
1. 只能使用【源材料】中的事实与信息,禁止编造、禁止引入外部知识
2. 输出格式严格为:
主持人A: ...
主持人B: ...
(交替进行)
3. 包含开场问候、自然过渡、追问与回应、结尾总结
4. 语言自然口语化,像真人聊天,允许感叹词("嗯"、"对"、"哇")
5. 面向想快速了解要点的忙碌听众,先给结论再展开
【源材料】:
{article_content}此模板综合了 NotebookLM 逆向提示词 与 社区最佳实践 的核心要素。
8.3 选型建议速查
| 场景 | 推荐方案 |
|---|---|
| 快速验证 / PoC | 直接用 NotebookLM 或 Wondercraft 体验效果 |
| 自建、可控、中文 | 智谱 GLM + MiniMax/通义 TTS,参考智谱文档与 NotebookLlama 架构 |
| 完全开源 / 本地 | Podcastfy 或 Mozilla document-to-podcast + Parler-TTS |
| 只要最好的语音 | ElevenLabs(作为 TTS 环节嵌入自建流水线) |
| 企业批量/API 化 | NotebookLM Enterprise API |
9. 完整信息来源索引
NotebookLM 官方与逆向
- Google Blog - NotebookLM Audio Overviews 发布
- Google Blog - NotebookLM 更新Overview 控制
- Google Help - Generate Audio Overview
- Google Cloud Docs - NotebookLM Enterprise API
- Baoyu - NotebookLM 系统提示词逆向还原
- TheBigPromptLibrary - notebooklm-10202024.md
- Nicole Hennig - Reverse Engineering the System Prompt
- Reddit - Deep Dive 提示词泄漏
- Reddit - Audio Overviews how it works
- Reddit - Custom Instructions For AI Podcast
- Latent Space - How NotebookLM Was Made
- AInauten - System Prompt Leaks + DeepMind 访谈
- Alex Lawsen - NotebookLM podcasts, but good
- MakeUseOf - 自定义提示词让 Audio Overview 更好
- XDA - 别忽视 NotebookLM 的定制功能
开源项目
- Podcastfy - GitHub | HN 讨论
- Open Notebook - GitHub | XDA 评测
- Mozilla document-to-podcast - GitHub | 文档 | 博客详解
- document-to-podcast/prompt.py 源码
- Readme-to-Podcast 社区衍生
- NotebookLlama Cookbook | TechCrunch | InfoQ | Analytics Vidhya | Medium
- Together AI - Build an Open Source NotebookLM
- HuggingFace - How to Make an AI Podcast
- Omri Lavi - Building AI Podcasts (LangGraph)
- S. Anand - AI Podcast Generator
提示词设计与实践
- Reddit r/PromptEngineering - 播客生成器提示词
- HackerNoon - 专业播客脚本提示词
- Medium - The AI Prompt That Turns Podcast Ideas Into Scripts
- Riverside - 45 AI Prompts for Podcasters
- Talks.co - Podcast Script Generator + 10-Step Guide
- Prompt Engineering Guide
商业工具
- ElevenLabs - Podcast 用例
- Wondercraft - AI Podcast Generator
- AutoContent API - 2026 最佳 AI 播客生成器
- SparkPod - 7 Best AI Podcast Generators 2026
- Cuflow - Best AI Podcast Generators 2026
- Podcast-Generator.ai - 对比
中文生态
- 智谱 AI - 播客生成文档
- 阿里云 - 通义音频播客生成
- MiniMax - AI 播客生成实战
- 科大讯飞 - AI 电台播客一键生成工作流
- Monica - 免费 AI 播客生成器
- TicNote - Podcast Generator
- 澎湃新闻 - 五分钟生成一档播客
- ondoku3 - AI 播客制作指南
- SiliconFlow - 2026 播客编辑最佳开源 AI 模型
技术研究与评估
- arXiv - LLMs Get Lost In Multi-Turn Conversation
- Microsoft Research 出版物
- Medium - Building Multi-Turn Conversations: 2026 Playbook
- Langfuse Cookbook - 多轮对话评估
- LangWatch Cookbook - 多轮对话评估
报告完。如需针对某个方案(如智谱 GLM 流水线、Podcastfy 接入、或自建提示词)做更深入的可行性分析或代码原型,可在此基础上继续展开。