【实践记录】Qwen3-TTS 本地部署完全指南

5 min

在 Windows (RTX 4050) 和 MacBook Pro M5 上本地部署 Qwen3-TTS 语音合成模型

更新时间:2026年5月

简介

Qwen3-TTS 是阿里巴巴开源的文本转语音(TTS)模型,支持:

  • 🎙️ 语音克隆:仅需 3 秒音频即可克隆声音
  • 🎨 声音设计:根据文本描述生成新声音
  • 🎭 自定义音色:9 种预设音色 + 情感控制
  • 🌍 多语言支持:支持 10+ 种主要语言

硬件要求

Windows (RTX 4050)

配置项最低要求推荐配置
显卡NVIDIA RTX 4050 6GBRTX 4060 8GB+
显存6GB8GB+
内存16GB32GB
存储10GB 可用空间SSD
系统Windows 10/11 64位Windows 11
CUDA12.1+12.4+

MacBook Pro M5

配置项最低要求推荐配置
芯片Apple M5M5 Pro / M5 Max
内存16GB 统一内存24GB+
存储10GB 可用空间SSD
系统macOS 14+macOS 15+

Windows + RTX 4050 部署

方案一:Ollama 部署(推荐)

第一步:安装 Ollama

  1. 访问 👉 ollama.com/download
  2. 下载 Windows 版安装程序,双击运行

第二步:安装 CUDA 驱动

# 检查显卡识别
nvidia-smi

如果报错,安装 NVIDIA 驱动CUDA Toolkit

第三步:拉取并运行模型

# 拉取 Qwen3-TTS 模型
ollama run qwen3-tts:12hz-1.7b-voicedesign

# 或使用更小的 0.6B 版本
ollama run qwen3-tts:12hz-0.6b-voicedesign

第四步:使用模型

# 交互式
ollama run qwen3-tts:12hz-1.7b-voicedesign

# 命令行生成音频
ollama generate -m qwen3-tts:12hz-1.7b-voicedesign "你好" -o output.wav

方案二:Hugging Face + Transformers

# 创建环境
conda create -n qwen3-tts python=3.10
conda activate qwen3-tts

# 安装依赖
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate bitsandbytes

INT4 量化代码:

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
    device_map="cuda:0",
    quantization_config=quantization_config,
    torch_dtype=torch.bfloat16,
)

Windows 显存优化

方法显存节省实现方式
INT4 量化-50%--load-in-4bit
使用 0.6B 模型-60%qwen3-tts:12hz-0.6b-voicedesign
启用 streaming-500MB--streaming 参数
BF16 替代 FP16-700MB--dtype bfloat16

MacBook Pro M5 部署

M5 规格

配置M5M5 ProM5 Max
CPU10核13-16核20-24核
GPU10核20核40核
内存带宽153 GB/s更高更高
统一内存16/24/32 GB24-64 GB64-128 GB

方案一:MLX 官方方案(推荐)

# 安装依赖
pip install mlx mlx-audio
brew install ffmpeg

# 克隆仓库
git clone https://github.com/AtomGradient/swift-qwen3-tts.git
cd swift-qwen3-tts

运行代码:

from mlx_audio import mlx

model = mlx.load("Qwen/Qwen3-TTS-12Hz-0.6B-MLX")

output = model.generate(
    text="你好,欢迎使用 Qwen3-TTS",
    speaker="Aiden",
    temperature=0.9
)
output.save("output.wav")

方案二:Ollama

# 安装
brew install ollama

# 运行
ollama run qwen3-tts:12hz-0.6b-voicedesign

Mac 选型建议

配置推荐模型可用性
M5 16GB0.6B BF16⚠️ 勉强可用
M5 24GB0.6B BF16✅ 流畅
M5 32GB0.6B / 1.7B INT4✅ 流畅
M5 Pro 48GB1.7B BF16✅ 流畅
M5 Max 64GB+1.7B BF16✅ 非常流畅

生成速度对比

RTF (Real-Time Factor) 说明

RTF = 生成耗时 ÷ 音频时长

  • RTF < 1.0 → 比实时快
  • RTF = 1.0 → 实时速度
  • RTF > 1.0 → 比实时慢

0.6B 模型性能

设备配置RTF30秒音频耗时
RTX 4050 Laptop6GB~0.6-0.8~18-24 秒
MacBook Pro M524GB~0.7-0.9~21-27 秒
MacBook Pro M5 Pro48GB~0.5-0.7~15-21 秒
RTX 409024GB~0.65~20 秒

1.7B 模型性能

设备配置RTF可用性
RTX 4050 Laptop6GB INT4~1.5-1.8⚠️ 可用但较慢
MacBook Pro M532GB INT4~1.0-1.3⚠️ 勉强可用
MacBook Pro M5 Pro48GB BF16~0.7-0.9✅ 流畅
RTX 409024GB~0.65✅ 流畅

平台对比总结

对比项MacBook Pro M5Windows + RTX 4050
架构Apple Silicon (ARM)x86 + NVIDIA GPU
内存统一内存 (16-128GB)分离内存 (6GB VRAM)
框架MLX (原生优化)CUDA + PyTorch
0.6B RTF~0.7-0.9~0.6-0.8
1.7B RTF~1.0-1.3 (32GB)~1.5-1.8 (6GB)
最大模型受限于统一内存受限于显存
功耗低(续航长)高(需插电)
便携性✅ 优秀⚠️ 较重

选择建议

  • 追求便携和续航 → MacBook Pro M5
  • 追求极致性能 → Windows + RTX 4090/5090
  • 预算有限 → MacBook Pro M5 24GB 或 Windows + RTX 4060

常见问题

Q: RTX 4050 提示 OOM?

# 使用 0.6B 模型
ollama run qwen3-tts:12hz-0.6b-voicedesign

# 或启用 streaming
ollama run qwen3-tts:12hz-1.7b-voicedesign --streaming

Q: Mac 提示内存不足?

# 使用 0.6B 模型
ollama run qwen3-tts:12hz-0.6b-voicedesign

# 关闭其他应用释放内存

Q: 为什么 Mac 比 NVIDIA 慢?

TTS 模型在 NVIDIA 上有 CUDA + TensorRT 深度优化。Mac 使用 Metal 后端,优化程度不如 CUDA。但 Mac 的统一内存架构可以加载更大模型,且能效比更高。


参考资料