【学习笔记】单人播客 AI 生成调研报告

2026-06-15 23 min

调研日期：2026-06-15 调研范围：文章/文档 → 单人/独白式 播客音频的提示词、工作流、工具与开源方案说明：本报告是《文章生成播客调研报告》（聚焦双人对话）的姊妹篇，专门聚焦「单人主播/独白式」播客。每项关键信息均标注了来源链接。

1. 为什么要单独研究「单人播客」

上一份报告聚焦的 NotebookLM 范式带火了双人对话生成，但「单人主播/独白式」播客是另一个同等重要、且技术要求不同的形态：

技术栈更简单
、无需对话连贯性管理，只需「LLM 写脚本 → 单音色 TTS」两步。
提示词逻辑不同
”互动/追问/接话”,单人靠”叙事节奏、钩子、第一人称口吻”。
有独有的技术难点
单音色的一致性 (音色漂移、语气断裂) 是双人方案不会遇到的问题。
适用场景更广
、知识科普、有声书、个人观点评论、睡前故事……这些天然是单人独白。

结论：单人播客不是双人播客的”阉割版”,而是一个目标不同、技术取舍不同的独立赛道，值得单独调研。

2. 单人 vs 双人：对比与选型依据

2.1 有研究支撑的对比 (重要)

一篇针对 296 名日本听众的对照实验论文《Comparison of Listening Experiences by Podcast Styles: Monologue versus Dialogue》直接对比了两种形态，核心发现：

对话式 (dialogue) 更生动、更有吸引力、好感度更高;但独白式 (monologue) 在信息密度传递上有其价值。

来源：ResearchGate - Comparison of Listening Experiences by Podcast Styles | Research Square PDF

Zara Zhang 的分析进一步指出”两人是播客的魔法数字”——一人讲课偏枯燥，三人以上太嘈杂。这意味着单人播客要在”吸引力”上额外下功夫。

来源：Zara Zhang - The Magic of Two: Why Dual-Host Podcasts

2.2 选型对照表

维度	单人独白 (Monologue)	双人对话 (Dialogue)
技术复杂度	低 (单 LLM + 单 TTS)	高 (人设协调、多轮连贯、双音色)
信息密度	高，适合知识/新闻密集传递	中，信息被对话稀释
吸引力/趣味	较低，需靠脚本技巧弥补	较高，对话天然有张力
生成稳定性	高 (无多轮走偏问题)	低 (LLM 多轮易跑题)
成本	低	高 (双倍 TTS、更长脚本)
典型场景	新闻、科普、有声书、评论、故事	深度访谈、娱乐、教育对谈
AI 生成难点	长文本单音色一致性	多轮对话连贯性、音色切换自然度

双人多轮连贯性问题见：arXiv - LLMs Get Lost In Multi-Turn Conversation(上一份报告已详述)

2.3 何时该选单人播客

✅ 选单人

/新闻/故事、目标听众想高效获取信息、需要低成本批量生成、内容会做图文/视频多端分发 (独白更易复用)。

✅ 选双人

/娱乐、追求”陪伴感”、单期时长久、愿意为体验付出更高成本。

3. 单人播客的标准工作流

单人播客的工作流比双人简单得多,核心是两步，最多三步：

┌─────────────┐    ┌──────────────────┐    ┌─────────────┐
│ 1. 文本预处理 │ -> │ 2. 独白脚本生成    │ -> │ 3. 单音色TTS │
│ 提取/清洗正文  │    │ LLM + 独白提示词   │    │ 长文本合成    │
└─────────────┘    └──────────────────┘    └─────────────┘

关键差异 (对比双人流水线)

环节	双人方案	单人方案
脚本生成	需要双主持人设、对话格式、追问设计	只需单一人设、叙事结构、钩子设计
戏剧化重写	常需独立一步 (如 NotebookLlama Step 3)	通常可省略,合并进脚本生成
TTS	需双音色 + 说话人切分 + 衔接处理	单音色,难点转为长文本一致性

参考：ByteBridge - Creating Podcasts with AI: A Practical End-to-End Workflow(明确区分了 solo narration / scripted story / multi-speaker 等格式) 参考：Omri Lavi - Building an AI-Generated Podcast(fetch articles → summarize → generate script → TTS → stitch)

4. 单人播客的提示词设计

单人播客的提示词核心不是”互动设计”,而是”叙事设计”。

4.1 ★★★★★ 单人播客脚本提示词模板 (综合最佳实践)

基于 dev.to、HackerNoon、Reddit 的多个实战模板归纳：

# 角色
你是一位资深单人播客主播兼编剧。你的风格是：[温暖/犀利/幽默/专业——按需填入]。
你擅长把复杂的内容讲得通俗、有画面感、让人想一直听下去。

# 任务
基于下方【源材料】,撰写一期 {时长} 分钟的单人独白播客脚本。
全程只有你一个人 (第一人称"我") 在讲，没有嘉宾、没有搭档。

# 脚本结构 (必须遵循)
1. 【钩子开场】用一个反常识的事实/一个问题/一个悬念在前 15 秒抓住听众
2. 【承诺】告诉听众听完能得到什么
3. 【正文】按逻辑展开，每个要点：
   - 先给结论，再用源材料里的事实/数据/例子支撑
   - 用比喻、类比把抽象概念具体化
   - 点与点之间用自然的过渡 ("说到这里，就不得不提…")
4. 【收尾】回顾要点，给一个行动建议或留一个思考题，然后自然结束

# 硬性规则
1. 只能使用【源材料】中的信息，禁止编造 (NO HALLUCINATION)
2. 用口语化、第一人称的讲述口吻，像在和单个朋友聊天
3. 禁止用"首先/其次/综上所述"这种书面/机器味过渡词
4. 允许并鼓励：反问、感叹、短暂停顿标记 (如 [停顿])、语气词
5. 输出纯口播文稿，不要加"主持人："之类的标签，不要加标题分级符号

# 听众画像
[描述目标听众：他们是谁、关心什么、已知什么]

# 【源材料】
{article_content}

综合来源：
dev.to - I Built a Podcast Script Prompt That Actually Works(完整模板)
HackerNoon - I Built an AI Prompt That Turns Podcast Ideas Into Professional Scripts
Reddit r/PromptEngineering - 播客生成器提示词 (强调禁用机器味过渡词)
Towards Generative AI(Medium)- 具体化吸引力 (每 3-5 分钟一个 hook)

4.2 ★★★★ 强制 NotebookLM 生成单人模式

社区实践

默认双人，但可通过 Customize(自定义指令) 强制单人，例如输入 “Use only one host/narrator, no dialogue, no second voice”。注意需要删除已有的 Audio Overview 后用新指令重新生成。

来源：Reddit r/notebooklm - One podcast host instead of two? NotebookLM 定制入口：Google Blog - NotebookLM update

4.3 单人提示词的设计要点 (跨来源归纳)

设计点	说明	来源
明确人设与口吻	定义主播的性格、专业度、说话风格 (温暖/犀利/幽默)	Riverside - 45 AI Prompts for Podcasters
禁用机器味过渡	明确禁止”首先/其次/综上”,改用口语化过渡	Reddit 播客生成器提示词
强制钩子结构	hook → promise → body → CTA 的叙事弧线	Captivate - Perfect Podcast Script
第一人称口吻	用”我”,像对单个朋友说话	Buzzsprout - 8 Script Templates
节奏与停顿标记	用 [停顿]/[笑]/[加重] 等标记指导 TTS 语气	同上
定义听众画像	让脚本针对真实听众的痛点和认知水平	Riverside

5. 关键难点：长文本单音色一致性

这是单人播客独有的技术难点，双人方案因为句子短、交替频繁反而问题不大。

5.1 问题本质

主流 TTS 模型对单次输入长度有上限(通常几十秒到 1-2 分钟),长播客必须**分块 (chunking)**生成再拼接。分块会带来：

音色漂移
语气断裂
/语速不连贯
漏字/跳词
TTS 容易 hallucinate、吞字

来源：Long-form TTS is broken: how TADA and Borderless are fixing it(详细解释为何 >30 秒内容 TTS 会漂移) 来源：Parler-TTS Issue #11 - Is there a way to create consistent voices?

5.2 业界解决方案

方案	做法	来源
分块 + 参考音频	每块生成都传入同一段参考音频 (reference clip) 保持音色	Unsloth - TTS Fine-tuning Guide
按句子/段落切分	TTS 单次最好只处理一段，提供足够上下文	LinkedIn - Building an AI audiobook people want to listen to
微调克隆音色	用 30 分钟干净单人音频微调，获得稳定克隆	The Neural Maze - Beyond Text: Vision & TTS Finetuning
长文本专用模型	用支持长文本的 TTS(见 5.3)	见下
音频后处理拼接	块间加微静音、做响度归一化	Reddit - 1-hour-long voice overs

5.3 推荐的长文本 TTS 方案

模型/服务	长文本能力	来源
Qwen3-TTS	开源，单次可合成 10 分钟以上自然流畅语音，3 秒声音克隆，长文本稳定性突出	Qwen3-TTS 技术报告 (arXiv) \| 实战指南 (Medium)
Gemini-TTS	Google 官方，支持短片段到长篇叙述，可控风格/口音/语速/语调	Google Cloud - Gemini-TTS 文档
ElevenLabs	商业标杆，需分块但质量最高，支持 Professional Voice Cloning	elevenlabs.io/use-cases/podcasts
GPT-SoVITS / XTTS-v2	开源，声音克隆，需配合分块策略	Reddit r/LocalLLaMA 推荐

6. 开源项目与自建方案

6.1 通用「脚本 → 单音色音频」工具

项目	说明	来源
Audiobook Maker (JarodMica)	长文本单音色音频生成 TTS 界面，适合有声书/单人播客	github.com/JarodMica/audiobook_maker
Voicebox	本地 ElevenLabs 替代，支持 7 种 TTS 引擎 + 声音克隆，全离线	voicebox.sh
Podcast-Generator (justlovemaki)	开源 CLI,OpenAI 生成脚本 + TTS 转语音，可自定义部署	github.com/justlovemaki/Podcast-Generator
awesome-ai-voice	开源 TTS/声音克隆模型精选清单	github.com/wildminder/awesome-ai-voice

6.2 自建单人播客流水线 (推荐架构)

[文章输入]
   │
   ▼
[1. 文本预处理]   提取正文、清洗、去广告/导航噪声
   │
   ▼
[2. 独白脚本生成]  ★核心:用 4.1 的系统提示词
   │              · 单一人设 + 钩子结构 + 仅基于源文
   │              · 超长文章可分段生成,每段带前文摘要
   │
   ▼
[3. 脚本后处理]    按句子/段落切分成 TTS 块,插入停顿标记
   │
   ▼
[4. 单音色 TTS]   · 开源:Qwen3-TTS / GPT-SoVITS(分块+参考音频)
   │              · 商业:ElevenLabs / Gemini-TTS
   │
   ▼
[5. 音频拼接]     块间微静音 + 响度归一化(LUFS) + 可选加 BGM
   │
   ▼
[成片输出]

参考实践：Omri Lavi - fetch → summarize → script → TTS → stitch 有声书工程参考：Temporal - Create audiobooks from text

7. 商业工具与平台

7.1 明确支持单人/独白的工具

工具	单人播客支持	特色	来源
Wondercraft	✅ AI 配音播客，支持脚本/笔记转单人节目	”Parrot Mode” 可精确控制 AI 嗓音如何演绎每一句	wondercraft.ai \| The Podcast Host 评测 \| Parrot Mode(Podnews)
Noiz AI	✅ 明确支持单人主持和访谈两种模式	无需麦克风，脚本直转专业剧集	noiz.ai/use-cases/podcast-voice-generator
Podcastle	✅ Solo 录制模式 + AI 增强	录制/编辑/发布一体	YouTube 教程
ElevenLabs	✅(语音引擎，适合嵌入单人流水线)	业界最佳音色 + 时间线编辑 + 配音克隆	elevenlabs.io/use-cases/podcasts
Murf AI	✅ 多种自然 AI 嗓音	超逼真配音，适合独白	murf.ai
HeyGen AI Narrator	✅ 175+ 语言	故事/脚本自然配音	heygen.com/tool/ai-narrator
Swell AI	✅ 单人播客全流程指南	单人主播向的工作流	swellai.com/blog/how-to-start-a-solo-podcast

7.2 一站式文章转播客 (默认或可选单人)

工具	说明	来源
NoteGPT	文本/PDF/网页/YouTube/笔记转播客，可选音色	notegpt.io/ai-podcast-generator
Podsqueeze	脚本/文章/笔记/PDF 转播客配音，免费 15 秒预览	podsqueeze.com/ai-podcast-generator
Monica AI	网页/视频/PDF/文本即时转播客	monica.im/ai-podcast
AnySpeech	话题/文章转播客 (默认多主持，可改单人)	anyspeech.io/ai-podcast-generator

8. 中文生态方案

8.1 中文单人播客工具

工具	说明	来源
Noiz AI(中文)	明确支持单人主持模式，脚本转专业剧集	noiz.ai/use-cases/zh-Hans/podcast-voice-generator
SpeakUp AI	一键文章转播客，20+ 逼真 AI 声音，支持声音克隆	top.aibase.com/tool/speakup-ai
LOVO AI (Genny)	粘贴脚本选音色一键生成，支持中文口音/语气	lovo.ai/zh/usecase/podcasts
Monica AI(中文)	网页/视频/PDF/文本转播客	monica.im/zh_CN/ai-podcast

8.2 中文长文本 TTS(单人播客音频合成环节)

Qwen3-TTS(通义千问)
TTS 标杆，单次 10 分钟 + 稳定合成，3 秒克隆 —— 最适合中文单人播客。(技术报告 | 实战指南)
MiniMax 语音模型
。(platform.minimaxi.com/docs/solutions/aipodcast)
SiliconFlow 开源模型清单
/配音开源模型汇总。(siliconflow.com/articles/zh-Hans/best-open-source-AI-models-for-podcast-editing)

8.3 中文行业分析 (理解生态)

资源	要点	来源
《深耕有限性播客的生成逻辑、实践困囿与适配场景》	分析 NotebookLM 等工具的脚本生成逻辑与适用场景	青年记者/腾讯新闻
《五分钟生成一档播客!》	实测 5000 字 2-3 分钟生成 6 分钟中文音频	澎湃新闻
《AI 播客能否抢滩 AIGC》	AI 播客降低生产门槛，辅助脚本/剪辑/分发	知乎专栏

9. 单人播客脚本结构最佳实践

单人播客没有对话来撑节奏，全靠脚本结构,因此结构设计至关重要。综合 Captivate、Buzzsprout、Stage 32 的编剧经验：

9.1 黄金结构 (钩子弧线)

[Hook 钩子 0-15s]   反常识事实 / 痛点提问 / 悬念
        ↓
[Promise 承诺]      "听完这期你会知道……"
        ↓
[Body 正文]         3-5 个要点,每个:结论先行 → 证据/故事支撑 → 过渡
        ↓
[Climax 高潮]       最有力的洞察/反转
        ↓
[CTA 收尾]          回顾要点 + 行动建议 / 思考题

来源：Captivate - Perfect Podcast Script(含模板) 来源：Buzzsprout - 8 Script Templates

9.2 从编剧借来的技巧

钩子前置
hook 技巧可直接用于播客独白

来源：Stage 32 - How to Use A.I. to Turn Your Screenplay into a Podcast

节奏控制
3-5 分钟埋一个新钩子，防止中段疲劳

来源：Towards Generative AI(Medium)- 具体化吸引力

9.3 独白脚本 vs 书面文章的关键差异 (提示词要强调)

维度	书面文章	独白脚本
人称	第三人称/客观	第一人称”我”
句长	可长可复杂	短句、口语
过渡	”首先/其次/综上"	"说到这…”/“你可能会问…”
结构	标题分层	听觉友好的钩子弧线
标记	无	[停顿]/[笑]/[加重] 指导 TTS

10. 实施建议

10.1 针对 SelfMediaTool 的落地建议

考虑到本项目已有的音频/文本处理能力，单人播客方案落地成本远低于双人,建议作为首选 PoC:

推荐技术栈(中文):
  · 脚本生成:GLM / 通义 / DeepSeek(用 4.1 提示词)
  · 长文本 TTS:Qwen3-TTS(开源、长文本稳定)或 MiniMax
  · 拼接:FFmpeg(块间静音 + 响度归一化 -16 LUFS)

10.2 起步提示词 (可直接用)

直接使用 第 4.1 节 的模板，把 {时长}、[风格]、[听众画像]、{article_content} 替换为实际值即可。

10.3 选型决策树

你的内容是知识/新闻/故事/评论类吗?
  ├─ 是 → 单人独白(本报告方案)
  │       └─ 需要最高音质? → ElevenLabs
  │       └─ 需要开源/中文? → Qwen3-TTS + GLM
  │       └─ 只想快速出片? → Wondercraft / Noiz AI
  └─ 否(观点碰撞/娱乐/深度访谈)→ 双人对话(见上一份报告)

11. 完整信息来源索引

单/双人对比研究

提示词与脚本模板

长文本单音色 TTS(单人播客核心难点)

开源项目

商业工具与工作流

中文生态

NotebookLM 单人模式

报告完。本报告与《文章生成播客调研报告》（双人对话向）互补，建议合并阅读以获得完整图景。如需针对单人播客做代码原型（如 GLM + Qwen3-TTS 流水线），可在此基础上继续展开。

学习笔记