【学习笔记】单人播客 AI 生成调研报告
调研日期:2026-06-15 调研范围:文章/文档 → 单人/独白式 播客音频的提示词、工作流、工具与开源方案 说明:本报告是《文章生成播客调研报告》(聚焦双人对话)的姊妹篇,专门聚焦「单人主播/独白式」播客。每项关键信息均标注了来源链接。
1. 为什么要单独研究「单人播客」
上一份报告聚焦的 NotebookLM 范式带火了双人对话生成,但「单人主播/独白式」播客是另一个同等重要、且技术要求不同的形态:
- 技术栈更简单、无需对话连贯性管理,只需「LLM 写脚本 → 单音色 TTS」两步。
- 提示词逻辑不同”互动/追问/接话”,单人靠”叙事节奏、钩子、第一人称口吻”。
- 有独有的技术难点单音色的一致性(音色漂移、语气断裂) 是双人方案不会遇到的问题。
- 适用场景更广、知识科普、有声书、个人观点评论、睡前故事……这些天然是单人独白。
结论
”阉割版”,而是一个目标不同、技术取舍不同的独立赛道,值得单独调研。
2. 单人 vs 双人
2.1 有研究支撑的对比(重要)
一篇针对 296 名日本听众的对照实验论文《Comparison of Listening Experiences by Podcast Styles: Monologue versus Dialogue》直接对比了两种形态,核心发现:
对话式(dialogue)更生动、更有吸引力、好感度更高;但独白式(monologue)在信息密度传递上有其价值。
来源:ResearchGate - Comparison of Listening Experiences by Podcast Styles | Research Square PDF
Zara Zhang 的分析进一步指出”两人是播客的魔法数字”——一人讲课偏枯燥,三人以上太嘈杂。这意味着单人播客要在”吸引力”上额外下功夫。
2.2 选型对照表
| 维度 | 单人独白(Monologue) | 双人对话(Dialogue) |
|---|---|---|
| 技术复杂度 | 低(单 LLM + 单 TTS) | 高(人设协调、多轮连贯、双音色) |
| 信息密度 | 高,适合知识/新闻密集传递 | 中,信息被对话稀释 |
| 吸引力/趣味 | 较低,需靠脚本技巧弥补 | 较高,对话天然有张力 |
| 生成稳定性 | 高(无多轮走偏问题) | 低(LLM 多轮易跑题) |
| 成本 | 低 | 高(双倍 TTS、更长脚本) |
| 典型场景 | 新闻、科普、有声书、评论、故事 | 深度访谈、娱乐、教育对谈 |
| AI 生成难点 | 长文本单音色一致性 | 多轮对话连贯性、音色切换自然度 |
双人多轮连贯性问题见:arXiv - LLMs Get Lost In Multi-Turn Conversation(上一份报告已详述)
2.3 何时该选单人播客
✅ 选单人
/新闻/故事、目标听众想高效获取信息、需要低成本批量生成、内容会做图文/视频多端分发(独白更易复用)。✅ 选双人
/娱乐、追求”陪伴感”、单期时长久、愿意为体验付出更高成本。3. 单人播客的标准工作流
单人播客的工作流比双人简单得多,核心是两步,最多三步:
┌─────────────┐ ┌──────────────────┐ ┌─────────────┐
│ 1. 文本预处理 │ -> │ 2. 独白脚本生成 │ -> │ 3. 单音色TTS │
│ 提取/清洗正文 │ │ LLM + 独白提示词 │ │ 长文本合成 │
└─────────────┘ └──────────────────┘ └─────────────┘关键差异(对比双人流水线)
| 环节 | 双人方案 | 单人方案 |
|---|---|---|
| 脚本生成 | 需要双主持人设、对话格式、追问设计 | 只需单一人设、叙事结构、钩子设计 |
| 戏剧化重写 | 常需独立一步(如 NotebookLlama Step 3) | 通常可省略,合并进脚本生成 |
| TTS | 需双音色 + 说话人切分 + 衔接处理 | 单音色,难点转为长文本一致性 |
参考:ByteBridge - Creating Podcasts with AI: A Practical End-to-End Workflow(明确区分了 solo narration / scripted story / multi-speaker 等格式) 参考:Omri Lavi - Building an AI-Generated Podcast(fetch articles → summarize → generate script → TTS → stitch)
4. 单人播客的提示词设计
单人播客的提示词核心不是”互动设计”,而是”叙事设计”。
4.1 ★★★★★ 单人播客脚本提示词模板(综合最佳实践)
基于 dev.to、HackerNoon、Reddit 的多个实战模板归纳:
# 角色
你是一位资深单人播客主播兼编剧。你的风格是:[温暖/犀利/幽默/专业——按需填入]。
你擅长把复杂的内容讲得通俗、有画面感、让人想一直听下去。
# 任务
基于下方【源材料】,撰写一期 {时长} 分钟的单人独白播客脚本。
全程只有你一个人(第一人称"我")在讲,没有嘉宾、没有搭档。
# 脚本结构(必须遵循)
1. 【钩子开场】用一个反常识的事实/一个问题/一个悬念在前 15 秒抓住听众
2. 【承诺】告诉听众听完能得到什么
3. 【正文】按逻辑展开,每个要点:
- 先给结论,再用源材料里的事实/数据/例子支撑
- 用比喻、类比把抽象概念具体化
- 点与点之间用自然的过渡("说到这里,就不得不提…")
4. 【收尾】回顾要点,给一个行动建议或留一个思考题,然后自然结束
# 硬性规则
1. 只能使用【源材料】中的信息,禁止编造(NO HALLUCINATION)
2. 用口语化、第一人称的讲述口吻,像在和单个朋友聊天
3. 禁止用"首先/其次/综上所述"这种书面/机器味过渡词
4. 允许并鼓励:反问、感叹、短暂停顿标记(如 [停顿])、语气词
5. 输出纯口播文稿,不要加"主持人:"之类的标签,不要加标题分级符号
# 听众画像
[描述目标听众:他们是谁、关心什么、已知什么]
# 【源材料】
{article_content}综合来源:
4.2 ★★★★ 强制 NotebookLM 生成单人模式
社区实践
默认双人,但可通过 Customize(自定义指令) 强制单人,例如输入 “Use only one host/narrator, no dialogue, no second voice”。注意需要删除已有的 Audio Overview 后用新指令重新生成。来源:Reddit r/notebooklm - One podcast host instead of two? NotebookLM 定制入口:Google Blog - NotebookLM update
4.3 单人提示词的设计要点(跨来源归纳)
| 设计点 | 说明 | 来源 |
|---|---|---|
| 明确人设与口吻 | 定义主播的性格、专业度、说话风格(温暖/犀利/幽默) | Riverside - 45 AI Prompts for Podcasters |
| 禁用机器味过渡 | 明确禁止”首先/其次/综上”,改用口语化过渡 | Reddit 播客生成器提示词 |
| 强制钩子结构 | hook → promise → body → CTA 的叙事弧线 | Captivate - Perfect Podcast Script |
| 第一人称口吻 | 用”我”,像对单个朋友说话 | Buzzsprout - 8 Script Templates |
| 节奏与停顿标记 | 用 [停顿]/[笑]/[加重] 等标记指导 TTS 语气 | 同上 |
| 定义听众画像 | 让脚本针对真实听众的痛点和认知水平 | Riverside |
5. 关键难点
这是单人播客独有的技术难点,双人方案因为句子短、交替频繁反而问题不大。
5.1 问题本质
主流 TTS 模型对单次输入长度有上限(通常几十秒到 1-2 分钟),长播客必须**分块(chunking)**生成再拼接。分块会带来:
- 音色漂移
- 语气断裂/语速不连贯
- 漏字/跳词TTS 容易 hallucinate、吞字
来源:Long-form TTS is broken: how TADA and Borderless are fixing it(详细解释为何 >30 秒内容 TTS 会漂移) 来源:Parler-TTS Issue #11 - Is there a way to create consistent voices?
5.2 业界解决方案
| 方案 | 做法 | 来源 |
|---|---|---|
| 分块 + 参考音频 | 每块生成都传入同一段参考音频(reference clip)保持音色 | Unsloth - TTS Fine-tuning Guide |
| 按句子/段落切分 | TTS 单次最好只处理一段,提供足够上下文 | LinkedIn - Building an AI audiobook people want to listen to |
| 微调克隆音色 | 用 30 分钟干净单人音频微调,获得稳定克隆 | The Neural Maze - Beyond Text: Vision & TTS Finetuning |
| 长文本专用模型 | 用支持长文本的 TTS(见 5.3) | 见下 |
| 音频后处理拼接 | 块间加微静音、做响度归一化 | Reddit - 1-hour-long voice overs |
5.3 推荐的长文本 TTS 方案
| 模型/服务 | 长文本能力 | 来源 |
|---|---|---|
| Qwen3-TTS | 开源,单次可合成 10 分钟以上自然流畅语音,3 秒声音克隆,长文本稳定性突出 | Qwen3-TTS 技术报告(arXiv) | 实战指南(Medium) |
| Gemini-TTS | Google 官方,支持短片段到长篇叙述,可控风格/口音/语速/语调 | Google Cloud - Gemini-TTS 文档 |
| ElevenLabs | 商业标杆,需分块但质量最高,支持 Professional Voice Cloning | elevenlabs.io/use-cases/podcasts |
| GPT-SoVITS / XTTS-v2 | 开源,声音克隆,需配合分块策略 | Reddit r/LocalLLaMA 推荐 |
6. 开源项目与自建方案
6.1 通用「脚本 → 单音色音频」工具
| 项目 | 说明 | 来源 |
|---|---|---|
| Audiobook Maker (JarodMica) | 长文本单音色音频生成 TTS 界面,适合有声书/单人播客 | github.com/JarodMica/audiobook_maker |
| Voicebox | 本地 ElevenLabs 替代,支持 7 种 TTS 引擎 + 声音克隆,全离线 | voicebox.sh |
| Podcast-Generator (justlovemaki) | 开源 CLI,OpenAI 生成脚本 + TTS 转语音,可自定义部署 | github.com/justlovemaki/Podcast-Generator |
| awesome-ai-voice | 开源 TTS/声音克隆模型精选清单 | github.com/wildminder/awesome-ai-voice |
6.2 自建单人播客流水线(推荐架构)
[文章输入]
│
▼
[1. 文本预处理] 提取正文、清洗、去广告/导航噪声
│
▼
[2. 独白脚本生成] ★核心:用 4.1 的系统提示词
│ · 单一人设 + 钩子结构 + 仅基于源文
│ · 超长文章可分段生成,每段带前文摘要
│
▼
[3. 脚本后处理] 按句子/段落切分成 TTS 块,插入停顿标记
│
▼
[4. 单音色 TTS] · 开源:Qwen3-TTS / GPT-SoVITS(分块+参考音频)
│ · 商业:ElevenLabs / Gemini-TTS
│
▼
[5. 音频拼接] 块间微静音 + 响度归一化(LUFS) + 可选加 BGM
│
▼
[成片输出]参考实践:Omri Lavi - fetch → summarize → script → TTS → stitch 有声书工程参考:Temporal - Create audiobooks from text
7. 商业工具与平台
7.1 明确支持单人/独白的工具
| 工具 | 单人播客支持 | 特色 | 来源 |
|---|---|---|---|
| Wondercraft | ✅ AI 配音播客,支持脚本/笔记转单人节目 | ”Parrot Mode” 可精确控制 AI 嗓音如何演绎每一句 | wondercraft.ai | The Podcast Host 评测 | Parrot Mode(Podnews) |
| Noiz AI | ✅ 明确支持单人主持和访谈两种模式 | 无需麦克风,脚本直转专业剧集 | noiz.ai/use-cases/podcast-voice-generator |
| Podcastle | ✅ Solo 录制模式 + AI 增强 | 录制/编辑/发布一体 | YouTube 教程 |
| ElevenLabs | ✅(语音引擎,适合嵌入单人流水线) | 业界最佳音色 + 时间线编辑 + 配音克隆 | elevenlabs.io/use-cases/podcasts |
| Murf AI | ✅ 多种自然 AI 嗓音 | 超逼真配音,适合独白 | murf.ai |
| HeyGen AI Narrator | ✅ 175+ 语言 | 故事/脚本自然配音 | heygen.com/tool/ai-narrator |
| Swell AI | ✅ 单人播客全流程指南 | 单人主播向的工作流 | swellai.com/blog/how-to-start-a-solo-podcast |
7.2 一站式文章转播客(默认或可选单人)
| 工具 | 说明 | 来源 |
|---|---|---|
| NoteGPT | 文本/PDF/网页/YouTube/笔记转播客,可选音色 | notegpt.io/ai-podcast-generator |
| Podsqueeze | 脚本/文章/笔记/PDF 转播客配音,免费 15 秒预览 | podsqueeze.com/ai-podcast-generator |
| Monica AI | 网页/视频/PDF/文本即时转播客 | monica.im/ai-podcast |
| AnySpeech | 话题/文章转播客(默认多主持,可改单人) | anyspeech.io/ai-podcast-generator |
8. 中文生态方案
8.1 中文单人播客工具
| 工具 | 说明 | 来源 |
|---|---|---|
| Noiz AI(中文) | 明确支持单人主持模式,脚本转专业剧集 | noiz.ai/use-cases/zh-Hans/podcast-voice-generator |
| SpeakUp AI | 一键文章转播客,20+ 逼真 AI 声音,支持声音克隆 | top.aibase.com/tool/speakup-ai |
| LOVO AI (Genny) | 粘贴脚本选音色一键生成,支持中文口音/语气 | lovo.ai/zh/usecase/podcasts |
| Monica AI(中文) | 网页/视频/PDF/文本转播客 | monica.im/zh_CN/ai-podcast |
8.2 中文长文本 TTS(单人播客音频合成环节)
- Qwen3-TTS(通义千问)TTS 标杆,单次 10 分钟+稳定合成,3 秒克隆 —— 最适合中文单人播客。(技术报告 | 实战指南)
- MiniMax 语音模型。(platform.minimaxi.com/docs/solutions/aipodcast)
- SiliconFlow 开源模型清单/配音开源模型汇总。(siliconflow.com/articles/zh-Hans/best-open-source-AI-models-for-podcast-editing)
8.3 中文行业分析(理解生态)
| 资源 | 要点 | 来源 |
|---|---|---|
| 《深耕有限性、实践困囿与适配场景》 | 分析 NotebookLM 等工具的脚本生成逻辑与适用场景 | 青年记者/腾讯新闻 |
| 《五分钟生成一档播客!》 | 实测 5000 字 2-3 分钟生成 6 分钟中文音频 | 澎湃新闻 |
| 《AI播客能否抢滩 AIGC》 | AI 播客降低生产门槛,辅助脚本/剪辑/分发 | 知乎专栏 |
9. 单人播客脚本结构最佳实践
单人播客没有对话来撑节奏,全靠脚本结构,因此结构设计至关重要。综合 Captivate、Buzzsprout、Stage 32 的编剧经验:
9.1 黄金结构(钩子弧线)
[Hook 钩子 0-15s] 反常识事实 / 痛点提问 / 悬念
↓
[Promise 承诺] "听完这期你会知道……"
↓
[Body 正文] 3-5 个要点,每个:结论先行 → 证据/故事支撑 → 过渡
↓
[Climax 高潮] 最有力的洞察/反转
↓
[CTA 收尾] 回顾要点 + 行动建议 / 思考题来源:Captivate - Perfect Podcast Script(含模板) 来源:Buzzsprout - 8 Script Templates
9.2 从编剧借来的技巧
- 钩子前置hook 技巧可直接用于播客独白
来源:Stage 32 - How to Use A.I. to Turn Your Screenplay into a Podcast
- 节奏控制3-5 分钟埋一个新钩子,防止中段疲劳
9.3 独白脚本 vs 书面文章的关键差异(提示词要强调)
| 维度 | 书面文章 | 独白脚本 |
|---|---|---|
| 人称 | 第三人称/客观 | 第一人称”我” |
| 句长 | 可长可复杂 | 短句、口语 |
| 过渡 | ”首先/其次/综上" | "说到这…”/“你可能会问…” |
| 结构 | 标题分层 | 听觉友好的钩子弧线 |
| 标记 | 无 | [停顿]/[笑]/[加重] 指导 TTS |
10. 实施建议
10.1 针对 SelfMediaTool 的落地建议
考虑到本项目已有的音频/文本处理能力,单人播客方案落地成本远低于双人,建议作为首选 PoC:
推荐技术栈(中文):
· 脚本生成:GLM / 通义 / DeepSeek(用 4.1 提示词)
· 长文本 TTS:Qwen3-TTS(开源、长文本稳定)或 MiniMax
· 拼接:FFmpeg(块间静音 + 响度归一化 -16 LUFS)10.2 起步提示词(可直接用)
直接使用 第 4.1 节 的模板,把 {时长}、[风格]、[听众画像]、{article_content} 替换为实际值即可。
10.3 选型决策树
你的内容是知识/新闻/故事/评论类吗?
├─ 是 → 单人独白(本报告方案)
│ └─ 需要最高音质? → ElevenLabs
│ └─ 需要开源/中文? → Qwen3-TTS + GLM
│ └─ 只想快速出片? → Wondercraft / Noiz AI
└─ 否(观点碰撞/娱乐/深度访谈)→ 双人对话(见上一份报告)11. 完整信息来源索引
单/双人对比研究
- ResearchGate - Comparison of Listening Experiences: Monologue vs Dialogue
- Research Square - 论文 PDF
- Zara Zhang - The Magic of Two: Why Dual-Host Podcasts
- LinkedIn - Josh P.: Why two-host podcasts feel more engaging(替代学习理论)
提示词与脚本模板
- dev.to - Podcast Script Prompt Complete Template
- HackerNoon - AI Prompt Turns Podcast Ideas Into Professional Scripts
- Reddit r/PromptEngineering - Podcast Generator Prompt
- Towards Generative AI(Medium)- The AI Prompt That Turns Ideas Into Scripts
- Riverside - 45 AI Prompts for Podcasters
- AI Academy - 35 Best ChatGPT Prompts for Podcasters 2026
- Talks.co - Podcast Script Generator + 10-Step Guide
- Captivate - How to Write the Perfect Podcast Script
- Buzzsprout - How to Write a Podcast Script(8 Templates)
- Stage 32 - Turn Your Screenplay into a Podcast
长文本单音色 TTS(单人播客核心难点)
- Long-form TTS is broken: how TADA and Borderless are fixing it
- Parler-TTS Issue #11 - Consistent voices across chunks
- Qwen3-TTS 技术报告(arXiv)
- High-Quality Long-Form TTS with Qwen3(Medium)
- Google Cloud - Gemini-TTS 文档
- Unsloth - TTS Fine-tuning Guide
- The Neural Maze - Beyond Text: Vision & TTS Finetuning
- LinkedIn - Building an AI audiobook people want to listen to
- Reddit - 1-hour-long voice overs 讨论
- Temporal - Create audiobooks from text(工程参考)
- Respeecher - AI Voices for Podcasts & Audiobooks
- Audiobox(arXiv)- 统一音频生成
开源项目
- Audiobook Maker - GitHub
- Voicebox - 本地 TTS 桌面应用
- Podcast-Generator (justlovemaki) - GitHub
- awesome-ai-voice - 开源 TTS 清单
- BentoML - Best Open-Source TTS Models 2026
- Modal - Top Open-Source TTS Models
- Reddit r/LocalLLaMA - Best local open source TTS
商业工具与工作流
- Wondercraft - AI Podcast Generator | 官网 | Parrot Mode(Podnews) | The Podcast Host 评测
- Noiz AI - Podcast Voice Generator(支持单人模式)
- ElevenLabs - Podcast 用例
- Murf AI
- HeyGen - AI Narrator
- Podcastle 教程(YouTube)
- NoteGPT - AI Podcast Generator
- Podsqueeze - AI Podcast Generator
- Monica AI - Podcast Generator
- AnySpeech - AI Podcast Generator | 博客教程
- Swell AI - How to Start a Solo Podcast
- Jellypod - Best AI Script Generators 2026
- Recast Studio - AI Podcast Script Generator
- ByteBridge - Creating Podcasts with AI: End-to-End Workflow
- Omri Lavi - Building an AI-Generated Podcast
- AutoContent API - Best AI Podcast Generators 2026
- HuggingFace - How to Make an AI Podcast
- Google Cloud Blog - Build a Podcast with Gemini 1.5 Pro
- Generative AI Newsroom - Transforming Longform Text into Multimedia
中文生态
- 智谱 AI - 播客生成
- 阿里云 - 通义音频播客生成
- MiniMax - AI 播客生成实战
- SiliconFlow - 2026 播客编辑最佳开源 AI 模型
- SpeakUp AI(aibase)
- LOVO AI(中文)
- 澎湃新闻 - 五分钟生成一档播客
- 青年记者 - 深耕有限性
- 知乎专栏 - AI播客能否抢滩 AIGC
NotebookLM 单人模式
- Reddit r/notebooklm - One podcast host instead of two?
- Google Blog - NotebookLM update(Customize 入口)
- ClipRise - ElevenLabs TTS vs Text-to-Dialogue(技术对比)
- FireRedTTS-2(arXiv)- 长对话语音生成
报告完。本报告与《文章生成播客调研报告》(双人对话向)互补,建议合并阅读以获得完整图景。如需针对单人播客做代码原型(如 GLM + Qwen3-TTS 流水线),可在此基础上继续展开。