【学习笔记】文章生成播客(AI Podcast Generation)调研报告

2026-06-15 21 min

调研日期
调研范围：文章/文档 → 播客音频的提示词、工作流、开源项目与商业方案说明：本报告每项关键信息均标注了来源链接，便于追溯核实。

1. 概述与核心结论

「文章转播客」的核心范式由 Google NotebookLM 的 Audio Overview(音频概览) 功能确立并带火：它将上传的文档 (PDF/网页/文本) 通过大模型转化为两位 AI 主持人深度对谈的播客音频。其本质是一条 「文本理解 → 对话脚本生成 → 语音合成」 的多阶段流水线。

来源：Google 官方博客 - NotebookLM now lets you listen to a conversation about your sources

三句话结论

技术上完全可复现
的”魔法”并非单一模型，而是「多阶段 LLM 流水线 + 双人设系统提示词 + 双音色 TTS」的组合，社区已有成熟开源复现 (Meta NotebookLlama、Mozilla document-to-podcast、Podcastfy)。
提示词是灵魂
TTS，而是系统提示词中的人设、语气、互动规则与”仅基于源文”的防幻觉约束——NotebookLM 的系统提示词已被社区逆向工程并公开。
中文生态已成熟
AI、阿里通义、MiniMax、科大讯飞等均提供中文播客生成的完整实践与文档，可直接落地。

2. 标准工作流架构

所有主流方案的架构高度一致，可抽象为 4 个核心阶段:

┌─────────────┐    ┌──────────────┐    ┌──────────────┐    ┌─────────────┐
│ 1. 文档预处理 │ -> │ 2. 脚本生成   │ -> │ 3. 戏剧化重写 │ -> │ 4. 语音合成  │
│ Extract/Clean│    │ Outline+Script│   │ Dramatize    │    │ Dual-TTS    │
└─────────────┘    └──────────────┘    └──────────────┘    └─────────────┘
   提取/清洗文本        生成大纲与对话       润色、加互动、      双音色 TTS
   (PyPDF/分块)        (双主持、基于源)     人设强化            (克隆/合成)

2.1 NotebookLM 疑似内部流程 (社区逆向)

社区通过对生成耗时 (~5 分钟) 与输出的分析，推测其流程为：

创建大纲 (Create an outline)
修订大纲 (可能多轮)
生成对话片段 (Generate dialogue segments)
为每位主持人合成 AI 语音 (Synthesize AI voices)

来源：Reddit - NotebookLM Audio Overviews: how it works 架构设计访谈：Latent Space - How NotebookLM Was Made

2.2 Meta NotebookLlama 的 4 步流水线 (开源、最清晰)

Meta 发布的开源复现，是理解架构的最佳教材：

步骤	作用	使用模型
Step 1 — PDF 预处理	提取、清洗、分块文本	Llama-3.2-1B / 3B
Step 2 — 转录生成	生成双人对话脚本	Llama-3.1-70B(主力)
Step 3 — 戏剧化重写	润色成自然、有吸引力的播客稿	Llama-3.1-8B
Step 4 — 语音合成	文本转音频	Parler-TTS / Suno Bark

来源：NotebookLlama 官方 Cookbook 报道：TechCrunch - Meta releases an open version of Google’s podcast generator 深度解析：InfoQ - Meta NotebookLlama

2.3 Mozilla document-to-podcast 的 3 步蓝图

Mozilla AI 的本地优先 (local-first) 方案，精简为 3 阶段：

文档预处理 (Document Pre-Processing)
播客脚本生成 (Podcast Script Generation)
驱动的核心阶段
音频生成 (Audio Generation)
TTS 合成双说话人音频

来源：Mozilla AI Blog - Blueprint Deep Dive: Turn Documents into Podcasts Locally 官方文档：mozilla-ai.github.io/document-to-podcast

3. 提示词 (Prompt) 设计详解

⚠️ 提示词是决定播客质量的核心。以下按「权威程度」排列。

3.1 ★★★★★ NotebookLM 逆向工程系统提示词 (黄金标准)

社区通过让 Deep Dive 功能”泄漏”以及逆向分析，还原了 NotebookLM Audio Overview 的系统提示词。其核心设计要素：

双主持人设定
「热情的讲述者 (enthusiastic storyteller)」+ 一位「冷静的分析师 (calm analyst)」
5 分钟内完成对源材料的客观且引人入胜的提炼
严格仅基于提供的源(strictly from provided sources)——防幻觉的核心约束
面向时间受限的学习者
包含闲谈 (banter)、过渡 (transitions)、主持人个性

来源：Baoyu - Google NotebookLM 系统提示词 (逆向还原) 来源：TheBigPromptLibrary - notebooklm-10202024.md(GitHub) 来源：Nicole Hennig - Reverse Engineering the System Prompt for Audio Overviews 来源：Reddit - I managed to get Deep Dive to leak out quite a bit of the hidden prompt

逆向提示词的核心约束可提炼为以下要点(用于自建系统提示词时参考):

角色:你是两位播客主持人(A=热情讲述者 / B=冷静分析师)
任务:将给定源材料转化为 5-10 分钟的双人深度对谈
硬性规则:
  1. 只能使用提供的源材料中的信息,不得编造(NO HALLUCINATION)
  2. 两位主持人有鲜明、一致的人设与说话风格
  3. 以自然口语进行,包含问候、过渡、感叹、追问
  4. 面向想快速了解要点的忙碌听众
  5. 保持客观,同时引人入胜

3.2 ★★★★ Mozilla 开源提示词模板 (可直接复用)

Mozilla 的 prompt.py 提供了结构化、可工程化的提示词实现，定义了：

主持人 persona(姓名、人设、语气)
对话生成规则
输出格式 (按说话人标记的脚本，如 Speaker 1: ... / Speaker 2: ...)

源码来源：document-to-podcast/prompt.py(GitHub)

3.3 ★★★★ Together AI 的 Pydantic 结构化方案

Together AI 教程采用 Pydantic 模型 定义脚本结构，让 LLM 输出严格结构化的 host/guest 对话，便于下游 TTS 解析：

来源：Together AI - Build an Open Source NotebookLM: PDF to Podcast

优势

，TTS 可精确切分不同说话人。

3.4 ★★★ 社区分享的完整系统提示词 (Reddit)

Reddit 用户分享了可直接用于 ChatGPT 项目指令的播客生成器提示词，特点是面向任意内容生成对话式播客脚本,社区实测可用。

来源：Reddit r/PromptEngineering - I built a podcast generator prompt for ChatGPT

3.5 ★★★ 提示词设计的最佳实践 (跨来源归纳)

最佳实践	说明	来源
明确人设	为每位主持人定义独特的性格、背景、语气、说话习惯	Riverside - 45 AI Prompts for Podcasters
具体化”吸引力”	不要只写”make it engaging”,要指定节奏 (如每 3-5 分钟一个 hook)、停顿、追问	Medium - The AI Prompt That Turns Podcast Ideas Into Professional Scripts
分段结构化	使用 intro / segments / transitions / outro 的分段格式，而非自由文本	同上
定义听众画像	描述目标听众的痛点和目标，让脚本更有共鸣	Riverside
跨模型测试	同一提示词在 Claude/GPT/Gemini 上效果不同，需迭代	HackerNoon - I Built an AI Prompt That Turns Podcast Ideas Into Professional Scripts
强制仅基于源文	明确”只能使用提供的信息”,防止幻觉	NotebookLM 逆向提示词

4. 开源项目与参考实现

4.5 其他参考实现

项目/资源	说明	来源
NVIDIA pdf-to-podcast Blueprint	NVIDIA 官方的 PDF 转播客蓝图	awesome-stars 收录
S. Anand 的 AI Podcast Generator	把任意文本转双人对话的在线工具	tools.s-anand.net/podcast/claude.html
HuggingFace 博客教程	含示例提示词的端到端教程	huggingface.co/blog/LE15l/make-ai-podcast-using-ai-voices-and-llms
Omri Lavi 的实践	用 LangGraph 编排的完整 AI 播客流水线	omrilavi.com/blog/building-ai-podcasts-and-letting-go

4.6 开源 TTS 模型 (用于语音合成阶段)

模型	说明	来源
Parler-TTS	NotebookLlama 选用，支持文字描述控制语音风格	NotebookLlama Cookbook
Suno Bark	多语言开源 TTS	同上
Zyphra Zonos	领先的开源 TTS 模型	SiliconFlow - 2026 播客编辑最佳开源 AI 模型

5. 商业工具与平台对比

5.1 核心对比表

工具	定位	核心优势	语音克隆	全流程	来源
Google NotebookLM	标杆产品	文档转双人 AI 深谈，体验最佳	✅(内置)	✅	Google Blog
ElevenLabs	语音引擎	业界最佳 AI 语音/TTS，支持 Professional Voice Cloning、时间线编辑	✅	❌(仅语音)	elevenlabs.io/use-cases/podcasts
Wondercraft	端到端生成	”播客界的 Canva”,无需设备/剪辑/配音，脚本→音频→发布	✅	✅	wondercraft.ai/tools/ai-podcast-generator
Podcastle	一体化平台	录制 + 编辑+AI 脚本生成	✅	✅	cuflow.ai 评测

5.2 NotebookLM 的定制能力 (重要)

NotebookLM 支持通过 “Customize(自定义)” 按钮提供自定义指令，可控制：

主持人语气、聚焦点、输出格式
输出语言 (支持 50+ 种语言)
需删除已有音频概览后用新指令重新生成

来源：Google Blog - NotebookLM update: Audio Overview controls 来源：Google Help - Generate Audio Overview 实战建议：MakeUseOf - NotebookLM’s best feature got much better when I stopped using the defaults 社区自定义指令合集：Reddit - Custom Instructions For AI Podcast 进阶提示词指南：Alex Lawsen - NotebookLM podcasts, but good

5.3 综合对比评测 (2026)

AutoContent API - Best AI Podcast Generators in 2026(10 款横评)
SparkPod - 7 Best AI Podcast Generators in 2026(NotebookLM / Podcastle / ElevenLabs / SparkPod 对比)
Cuflow - Best AI Podcast Generators in 2026
Podcast-Generator.ai - The Best AI Podcast Generator: An Honest Comparison

6. 中文生态方案

6.1 智谱 AI 播客生成实践 (★★★★★ 推荐参考)

智谱提供了最完整的中文实现思路文档，流程与 NotebookLM 一致：大模型读取理解文本 → 根据提示词、人设生成对话式文本 → 音频合成。文档含可参考的代码示例 (tts.py 等)。

来源：智谱 AI 开放文档 - 播客生成

6.2 阿里通义音频播客生成

以通义千问为基座，将文档转换为两位 AI 主持人对话形式的播客。

来源：阿里云帮助文档 - 通义音频播客生成

6.3 MiniMax AI 播客生成方案

使用 MiniMax 语音模型 + 语言模型构建完整应用，实现用户输入到播客成品的全流程自动化。

来源：MiniMax 开放平台 - AI 播客生成：多模态 AI 应用实战

6.4 科大讯飞 AI 电台播客一键生成工作流 (★★★★ 工作流蓝图)

提供了非常清晰的中文工作流蓝图：内容输入 → 智能改写 → 视觉生成 → 语音合成 → 成果输出,适合个人创作者或小型团队。

来源：GitHub Discussion - AI 电台播客一键生成工作流

6.5 其他中文工具与报道

资源	说明	来源
Monica AI 播客生成器	网页/YouTube/PDF/文本即时转播客	monica.im/zh_CN/ai-podcast
TicNote Podcast Generator	会议笔记/文档转播客，支持逼真 AI 语音	ticnote.com/zh/features/podcast-generator
行业报道	实测 5000 字文本约 2-3 分钟生成约 6 分钟中文音频	澎湃新闻 - 五分钟生成一档播客
制作指南	从文本自动生成音频内容的方法，含旁白式播客技巧	ondoku3.com - AI 播客制作指南

7. 关键技术难点与研究

7.1 多轮对话的连贯性问题 (核心难点)

微软研究院论文《LLMs Get Lost In Multi-Turn Conversation》发现：在多轮对话生成任务中，LLM 一旦”走偏”往往无法自我恢复。这对长播客脚本的生成 (本质是多轮对话) 是关键挑战。

来源：arXiv - LLMs Get Lost In Multi-Turn Conversation 来源：Microsoft Research 出版物页

实践启示

分段生成 + 显式传递上下文摘要,而非一次性生成全部对话。这正是 NotebookLlama「先转录再戏剧化」两步法的设计动机。

7.2 Agentic 编排

Medium - Building Multi-Turn Conversations with AI Agents: The 2026 Playbook
agent 架构模式
Omri Lavi 的实践
LangGraph 编排播客生成流水线
评估方法：Langfuse Cookbook - Evaluating Multi-Turn Conversations、LangWatch Cookbook

7.3 NotebookLM 的技术架构访谈 (深度)

Latent Space 对 NotebookLM 团队的访谈，涵盖了从文档摄取到播客音频输出的架构与设计哲学，是理解「为什么这样设计」的最佳资料。

来源：Latent Space - How NotebookLM Was Made 关联报道：AInauten - System Prompt Leaks(NotebookLM + Google DeepMind 访谈)

8. 实施建议

8.1 推荐的落地路线 (针对本项目自建场景)

基于以上调研，若要在 SelfMediaTool 中自建「文章转播客」能力，建议采用 「开源流水线 + 国产模型」 方案：

[文章输入]
   │
   ▼
[1. 文本预处理] —— 提取正文、清洗、分块(可复用项目现有转录/文本处理逻辑)
   │
   ▼
[2. 大纲生成]    —— 用 GLM/通义 生成结构化大纲(避免多轮走偏)
   │
   ▼
[3. 双人脚本生成] —— 核心:系统提示词(双主持人人设 + 仅基于源文约束)
   │                参考 NotebookLM 逆向提示词 / Mozilla prompt.py
   ▼
[4. 戏剧化重写]  —— 8B 级模型即可:加互动、口语化、过渡词
   │
   ▼
[5. 双音色 TTS]  —— 智谱/MiniMax/通义 语音,或开源 Parler-TTS/Zonos
                   按 Speaker 标记切分,分别合成后拼接

8.2 提示词最小可行模板 (可直接起步)

# 系统提示词(草稿,可迭代)

你是一档双人播客的编剧。两位主持人:
- 主持人A:热情、善于讲故事,擅长用比喻把复杂概念讲通俗
- 主持人B:冷静、理性,擅长补充细节、追问、做总结

任务:基于下方【源材料】,生成一段 {时长} 分钟的双人对话播客脚本。

硬性规则:
1. 只能使用【源材料】中的事实与信息,禁止编造、禁止引入外部知识
2. 输出格式严格为:
   主持人A: ...
   主持人B: ...
   (交替进行)
3. 包含开场问候、自然过渡、追问与回应、结尾总结
4. 语言自然口语化,像真人聊天,允许感叹词("嗯"、"对"、"哇")
5. 面向想快速了解要点的忙碌听众,先给结论再展开

【源材料】:
{article_content}

此模板综合了 NotebookLM 逆向提示词与社区最佳实践的核心要素。

8.3 选型建议速查

场景	推荐方案
快速验证 / PoC	直接用 NotebookLM 或 Wondercraft 体验效果
自建、可控、中文	智谱 GLM + MiniMax/通义 TTS，参考智谱文档与 NotebookLlama 架构
完全开源 / 本地	Podcastfy 或 Mozilla document-to-podcast + Parler-TTS
只要最好的语音	ElevenLabs(作为 TTS 环节嵌入自建流水线)
企业批量/API 化	NotebookLM Enterprise API

9. 完整信息来源索引

NotebookLM 官方与逆向

开源项目

提示词设计与实践

商业工具

中文生态

技术研究与评估

报告完。如需针对某个方案 (如智谱 GLM 流水线、Podcastfy 接入、或自建提示词) 做更深入的可行性分析或代码原型，可在此基础上继续展开。

学习笔记