【学习笔记】AI 视频生成全景:有哪些方式、技术范式、开源与商业 SOTA(2026)
整理日期:2026-06-30 涵盖范围:12 种生成模态、技术范式、商业前沿与排行榜、开源选型、数字人口播、免费与国内工具实操 说明:本笔记关键信息均标注来源链接,便于追溯核实;标注「(未确认)」或「据报道」者为待二次核验项。AI 视频迭代极快(很多模型半年一代),正式商用前请以各平台最新页面为准。文末「九、按用途选型决策表」可直接跳读结论。
一、核心结论(太长不看)
- 格局已变,而且很反直觉:开辟了 AI 视频赛道的 OpenAI Sora 已停服(web/app 2026-04-26 关停、API 2026-09-24 关停);而 2026 年的榜首被中国厂商包揽——字节跳动 Seedance 2.0 同时登顶 Artificial Analysis 文生视频、图生视频(带音频)双榜(Elo 1219 / 1195)。
- 原生音频是 2026 的分水岭:Veo 3 首创「一次生成画面 + 同步对白 + 音效 + 配乐」后,Seedance 2.0、Kling 3.0、Vidu Q3、Sora 2、Grok Imagine 全部跟上;而 Hailuo、Runway、Luma、Adobe 仍缺席——这是它们目前最大的短板。选型第一步先问「要不要声音」。
- 「用 AI 生成视频」远不止文生视频:至少有 12 种模态(图生、首尾帧、视频生视频、运镜、参考图一致性、延长、数字人口播、修复外扩、循环、世界模型……)。先选模态,再选模型,是这条赛道最重要的选型直觉。
- 开源已经逼近闭源:Wan 2.2(首个开源 MoE 视频模型)、HunyuanVideo、LTX-2(目前唯一开源、带原生音频的视频模型) 质量已接近商业模型;而 CogVideoX / LTX-Video 在 8–12GB 的消费级显卡上就能跑。
- 免费层几乎都禁商用 + 带水印;真正「免费 + 可商用」的只有本地开源(Apache 系的 CogVideoX / Wan / LTX;⚠️ HunyuanVideo 是社区许可、排除欧盟/英国/韩国商用,不是纯开源)——这和姊妹篇《AI 音乐生成全景》是同一个结论。
来源:Artificial Analysis 文生视频竞技场 · 图生视频竞技场 · OpenAI Sora 停服说明 · BBC:Sora 关停报道
二、「用 AI 生成视频」有哪些方式:12 种模态总览
很多人一提「AI 生成视频」就默认等于「文生视频」,其实那只是最基础的一种。先把「你要解决的是哪一类问题」想清楚,比纠结用哪个模型重要得多——下面这张表是全文的索引,后续每一节都是在展开其中某一行。
| 模态 | 一句话定义 | 最适合的场景 | 代表模型 / 工具 |
|---|---|---|---|
| ① 文生视频 T2V | 只凭一段文字生成视频 | 零素材、从零构思创意 | Veo 3.1、Seedance 2.0、Kling 3.0、Wan 2.2 |
| ② 单图生视频 I2V | 给一张图当首帧,补全后续运动 | 让静图「动起来」、给画作注入生命 | Runway Gen-4.5、Wan 2.2、HunyuanVideo-I2V |
| ③ 首尾帧 / 多关键帧 I2V | 给定起止帧(甚至中段帧),生成中间过渡 | 精准控制开头和结尾、做转场 | Wan 2.1-FLF2V、LTX-2、Kling Start & End Frames |
| ④ 视频生视频 V2V / 风格化 | 改风格或内容、保留原片的运动结构 | 影视调色、风格迁移、换背景 | Runway Gen-4 V2V、Pika Pikaswaps、Wan V2V |
| ⑤ 视频延长 | 在已有片段末尾接续、延长时长 | 长镜头、续拍、补镜头 | Kling Extend、Runway Extend、Veo Extend |
| ⑥ 运镜 / Motion Brush / Dolly Zoom | 指定镜头运动方向与强度,或涂抹局部让特定区域动 | 电影级镜头语言、推拉摇移 | Runway Camera Control + Motion Brush、Kling Motion Control |
| ⑦ 参考图 / 角色一致性 | 喂多张参考图(角色、物体、服装、场景),保持各自身份跨镜头不变 | 系列短片、AI 短剧、IP 稳定出场 | Pika 2.5 Scene Ingredients、Wan 2.7 R2V、Seedance 多图 |
| ⑧ 循环 / 无缝视频 | 首尾衔接、可无限循环播放 | 背景动图、MV、氛围素材 | Runway / Pika 的 loop 模式 |
| ⑨ 数字人 / 口播 / 唇形同步 | 用音频或文本驱动一张人像/数字人说话,口型表情对齐 | 营销口播、虚拟主播、教程 | EchoMimic V3、LatentSync、HeyGen、JoyHallo(中文) |
| ⑩ 视频修复 / 外扩 / 对象擦除 | 涂抹移除画面元素,或扩展画幅 | 去路人、横竖屏转换、补全 | Runway Inpainting、各模型 uncrop |
| ⑪ 原生音频 / 配乐 | 视频与同步的对白、音效、配乐一次生成 | 有声短片、广告、叙事成片 | Veo 3 / 3.1、Seedance 2.0、Kling 3.0 Omni、LTX-2(开源) |
| ⑫ 3D / 4D / 世界模型 | 隐式学习物理、几何、动力学,把视频当「世界模拟器」 | 机器人 / 自动驾驶训练数据、物理仿真 | NVIDIA Cosmos、Sora 的世界模型愿景 |
一个直觉判断:①② 是「从无到有」,③④⑤⑥⑦⑧⑩ 是「在已有素材上加工」,⑨ 是「让数字人说话」,⑪是「给视频配音」,⑫是「拿视频当仿真器」。本文第四节讲商业模型(主要覆盖 ①②③⑦⑪),第六节讲开源(①②③④),第七节专讲 ⑨,第八节讲怎么免费跑起来。
三、技术原理:AI 是怎么「拍视频」的?
3.1 一段演进:U-Net → DiT → Flow Matching
早期的视频生成沿用图像扩散的 U-Net 卷积骨干,但卷积的「归纳偏置」限制了把模型做大。转折点是 Sora(2024 年 2 月)引入 DiT(Diffusion Transformer,扩散 Transformer):把视频编码成一串时空 token,用 Transformer 在潜空间里迭代去噪。Transformer 的好处是可以堆到几十 B 参数——质量随规模近乎线性提升,DiT 从此成为事实标准。
2024–2025 年,业界又把训练目标从经典 DDPM 换成 Flow Matching / Rectified Flow(整流流):它把「噪声」和「真实数据」用一条近似直线的轨迹连起来,采样步更少、大规模训练更稳更省。一句话:规模驱动质量,Flow Matching 让大规模训练更经济。
来源:Open-Sora 2.0 论文(含 DiT 对比)(arXiv 2503.09642) · Meta Movie Gen 论文(Flow Matching)(arXiv 2410.13720)
3.2 六条技术范式
注意:「DiT 骨干」和「Flow Matching 训练」是两个正交的选择,现在主流大模型大多是「DiT + Flow Matching」组合,并不是对立路线。
| 范式 | 核心思想 | 优 / 缺点 | 代表模型 |
|---|---|---|---|
| DiT 扩散 | 3D-VAE 编码时空潜表示,DiT 在潜空间迭代去噪 | 可扩展、质量随规模提升 / 多步采样、算力高 | Sora、HunyuanVideo(13B)、Wan 2.x |
| Flow Matching(整整流) | 用「速度场」把噪声沿直线推向数据,常与 DiT 组合 | 步数更少、训练更稳 / 仍多步迭代 | Meta Movie Gen(30B)、Mochi、LTX-Video、Kling |
| 自回归 next-token | 视频先离散化成 token,像 LLM 逐 token 预测 | 任意条件可作上下文、流式友好 / 慢、误差累积、纹理常弱于扩散 | Google VideoPoet、Meta Emu Video、Show-o、MAGI-1 |
| 掩码生成式(MAR 风格) | 按掩码比例并行预测 token,介于扩散与自回归之间 | 并行解码比 AR 快、双向上下文 / 难建模强时序因果 | MAGVIT、MarDini、MAGI(CVPR 2025) |
| 混合(AR + 扩散) | AR/LM 出结构与低频信号保时序,扩散精修高频帧保纹理 | 兼顾时序与纹理 / 工程复杂 | CausVid(MIT 2025,秒级出片) |
| GAN / 实时 | 判别式网络做单图 + 音频驱动的口型表情合成,毫秒级 | 实时、低成本 / 保真度上限低于扩散 | HeyGen、Hedra、D-ID(数字人方向) |
⚠️ 两个常见误读:Open-Sora 2.0 是扩散系(不是自回归);Meta Movie Gen 是纯 Flow-Matching DiT(不是混合范式)。
3.3 质量驱动与开放难题
- 时序一致性:跨帧不闪不变形,是 DiT 时空注意力 + 长上下文的最大收益。
- 运动幅度 vs 稳定性:大运动容易结构崩坏;高 Elo 的模型通常是「敢动又不动」。
- 提示遵循:复杂场景、多主体提示下,物体数量、空间关系、动作经常丢失(⑦ 参考图能部分缓解)。
- 物理真实感:流体、碰撞、刚体、镜面反射仍是弱项;Sora 2 把「物理更准」当卖点。
- 长时长连贯:超过 10 秒后剧情与身份容易漂移,Vidu Q3 主打的「首个长片原生音视频」正指向这个战场。
- 算力成本:训练动辄上千万美元(Open-Sora 2.0 用约 20 万美元属极端低成本特例);推理多步昂贵,「少步 / 蒸馏 / 单 pass」是降本主线。
四、商业前沿全景与排行榜(2026)
4.1 Artificial Analysis 视频竞技场(2026-06 快照)
这个榜用的是众包盲测 A/B(同一个 prompt 两个模型各生成一次,投票者不知模型身份选优),按 Elo 积分排名,是目前最被认可的第三方榜。最大看点:Top 名次几乎被中国厂商包揽,Veo 排到第 10,Runway / Pika / Luma 跌出 Top 24。
文生视频(带音频)Top 5
| # | 模型 | 厂商 | Elo | 发布 |
|---|---|---|---|---|
| 1 | Seedance 2.0(720p) | 字节跳动 | 1219 | 2026-02 |
| 2 | HappyHorse-1.1 | 阿里 ATH | 1151 | 2026-06 |
| 3 | HappyHorse-1.0 | 阿里 ATH | 1123 | 2026-04 |
| 4 | SkyReels V4 | 昆仑万维 | 1106 | 2026-03 |
| 5 | Kling 3.0(1080p Pro) | 快手 | 1104 | 2026-02 |
| 10 | Veo 3.1 | 1094 | 2026-01 |
图生视频(带音频)Top 2:① Seedance 2.0(Elo 1195);② xAI Grok Imagine Video 1.5(Elo 1114,2026-06 发布,比 Veo 3.1 还高)。
⚠️ 注意
arena.ai(LMArena)和artificialanalysis.ai是两套不同的竞技场,Elo 标尺不同,别混着引用。VBench-2.0(更偏内在保真度的学术榜)上,中国模型占据前 10 约八席(各模型当前精确分未确认,以 HF 官方面板为准)。
来源:AA 文生视频榜 · AA 图生视频榜 · VBench 榜(HF)
4.2 主力模型速写
| 模型(厂商) | 最新版本 | 原生音频 | 亮点 / 短板 |
|---|---|---|---|
| Veo(Google) | Veo 3.1 / 3.1 Fast(2026-01) | ✅ 首创 | 4K、广播级、Gemini 内约 3 个/天免费、SynthID 水印、免费层允许商用;8 秒原生片段上限、提示语法敏感 |
| Sora(OpenAI) | Sora 2(2025-09) | ✅ | 已停服(web/app 2026-04-26、API 2026-09-24);定位「世界模拟器」,为机器人训练铺路 |
| Kling 可灵(快手) | Kling 3.0 / 3.0 Omni(2026-02) | ✅(2.6 起) | 5 语多角色对白、多镜头故事板、4K(部分未确认);66 积分/天免费、SynthID、非商用,出口/B2B 第一 |
| Hailuo 海螺(MiniMax) | Hailuo 02 / 2.3(2025-10) | ❌ | 顶级运动与物理真实感、性价比之王;最大短板是无原生音频、片段偏短(1080p 仅 6 秒) |
| Seedance(字节/即梦/豆包) | Seedance 2.0(2026-02) | ✅ | 双榜 #1、单次可输入多至 9 图 + 3 视频 + 3 音频、方言唇形;2.0 非 1080p 原生(720p 放大) |
| Vidu(生数) | Vidu Q3(2026-01) | ✅ | 业内首个「单次长片原生音视频」、多图参考;Q = Quality(不是 Quarter) |
| Runway | Gen-4.5(2025-12) | ❌(独立 Audio tab) | 顶级物理保真、跨镜头角色一致性、Motion Brush 丰富;已丢榜首、Gen-4 仅 I2V |
| Pika | Pika 2.5(约 2025-11) | ✅(Sound Effects) | Scene Ingredients 多元素合成、Pikaframes 转场、一键特效;画质竞赛已掉队,免费层无水印且可商用 |
| Luma | Ray3.2(2026-06) | ❌ | 自然物理运动、Ray3 Modify 可保留真人表演做 AI 编辑;无原生音频 |
| Adobe Firefly | 原地迭代(2025-12 大更新) | ❌ | 训练数据商用安全、企业版有版权赔偿;本质是聚合器(托管 Kling/Veo/Runway 等) |
| NVIDIA Cosmos | Cosmos 3(2026-05) | ⚠️ 仅环境音 | 定位物理 AI / 世界模型(机器人、自动驾驶仿真),不是消费级视频工具 |
| 黑马 | Grok Imagine 1.5(xAI)、HappyHorse(阿里 ATH)、SkyReels V4(昆仑)、PixVerse V6(爱诗) | ✅ | I2V 榜 / 无音频榜冲击榜首,成本更低 |
4.3 旗舰深入之一:Seedance 2.0(字节,当前双榜 #1)
Seedance 2.0 是 2026 年上半年最值得关注的模型,它把榜首优势主要建立在原生音频上——去掉音频维度后,阿里的 HappyHorse 反而更高。几个关键点:
- 全模态输入:单次可同时喂「文字 + 最多 9 张图 + 3 段视频 + 3 段音频」,做参考一致性、首尾帧、角色替换、视频续写都不在话下。
- 原生音频:双声道立体声,BGM、环境音效、旁白并行生成,还支持多语种 + 方言(川粤)唇形同步。
- 规格:原生 720p(1080p 靠放大),单段 4–15 秒,支持多镜头切换。
- 国内入口:在即梦 AI / 豆包 app(豆包「照片动起来」每天约 5 次免费)里直接用;API 走火山引擎,海外走 fal.ai、Replicate。
- 短板:非原生 1080p、复杂物理 / 多角色对话 / 唱歌仍不完美。
来源:Seedance 2.0 官方博客 · The Verge 报道 · Seedance 1.0 论文 (arXiv 2506.09113)
4.4 旗舰深入之二:Veo 3.1(Google,原生音频先驱)
- 首创原生音频:从 Veo 3(2025-05 Google I/O)起,一次前向就同步输出对白、音效、环境声与画面,覆盖到 3.1 的「Ingredients to Video」(多参考图)、「Frames to Video」(首尾帧)、Extend、运镜等全部功能。
- 规格:720p / 1080p / 4K,原生 8 秒(可扩展到 1 分钟+)。
- 访问与价格:Gemini app、Google Flow、Gemini API、Vertex AI;Veo 3.1 Fast 约 0.15 美元/秒(8 秒约 1.2 美元)。Gemini 免费版里可用,约每天 3 个 8 秒视频,带不可见 SynthID 水印,免费层允许商用(按 Google 标准条款)。
- 提示写法:Veo 3 对语法极其敏感,社区总结了一套 CASCADE 提示法——Camera(机位)→ Ambience(环境)→ Subject(主体)→ Context(场景)→ Action(动作)→ Dialogue(对白,用方括号如
[0s-2s] 角色: "...")→ Emotion(情绪);格式写错会静默生成无声片段。
来源:Google Veo 3.1 博客 · Google DeepMind Veo 页 · Google Cloud Veo 提示指南
4.5 免费层横向对比
| 模型 | 免费额度 | 水印 | 免费层商用 | 原生音频 |
|---|---|---|---|---|
| Veo 3 / 3.1(Gemini 内) | 约 3 视频/天,8 秒 | 不可见 SynthID | 允许 | ✅ |
| Kling 3.0 | 66 积分/天(仅 720p) | 可见 + 不可见 SynthID | ❌ 非商用 | ✅ |
| Hailuo | 约 2–5 次/天(768p 6 秒) | 有(右下角) | ❌ | ❌ |
| Seedance 2.0 / 即梦 | 约 120 积分/天 + 豆包 5 次/天 | 有(免费层) | 需付费 / API | ✅ |
| Vidu Q3 | 80 积分/月 + Off-Peak 无限免费 | 有(720p) | ❌ 非商用 | ✅ |
| Runway Gen-4 Turbo | 一次性 125 积分 | 有(不可移) | ⚠️ 未确认 | ❌ |
| Pika 2.5 | 80 积分(仅 480p / I2V 特效) | 无水印 | 允许 | ✅ |
| Luma | 约 30 次/月(720p) | 有 | ❌ 非商用 | ❌ |
| Adobe Firefly | 有限月度积分 | 取决于计划 | 企业版有赔偿 | ❌ |
结论性观察:免费层里最宽松且带原生音频的是 Pika(无水印 + 商用)和 Veo(经 Gemini,允许商用);最严苛的是 Kling(SynthID + 非商用 + 仅 720p)。
五、原生音频:2026 的分水岭
这是 2026 年选型的第一分水岭:你的视频要不要带声音(对白、音效、配乐)?如果要,可选范围会立刻收窄一大半。
| 有原生音频(一次生成) | 没有原生音频(最大短板) |
|---|---|
| Veo 3 / 3.1(首创)、Sora 2、Seedance 2.0、Kling 2.6 / 3.0 Omni、Vidu Q3、PixVerse V6、SkyReels V4、Wan 2.7、Grok Imagine、开源 LTX-2 | Hailuo 全系、Runway(独立 Audio tab,非模型级)、Luma Ray 全系、Adobe Firefly、NVIDIA Cosmos(仅环境音) |
为什么原生音频重要:以前做一支带声的视频要串起「生成画面 → TTS 配音 → 拟音 → 配乐」一整条流水线,音画对齐费时费力;原生音频让这些一次生成、天然同步,自动唇形、环境音、配乐全包,直接解锁了「有人物说话」的叙事视频。
提示:如果你要的是给已有视频配音、或单独做配乐,而不是「画面 + 声音一起生成」,那是另一条路——见姊妹篇《AI 音乐生成全景》(AI 作曲 / 免版税音乐),以及第七节的 LatentSync(给已有视频做唇形同步)。
来源:Google Developers Blog:Veo 3 · MiniMax Hailuo 2.3 公告 · Kling 2.6 音频指南
六、开源选型:Wan / HunyuanVideo / LTX-2 / CogVideoX 与对手们
6.1 主力开源模型横向对比
| 模型 | 开发方 | 许可证 | 参数 | 模态 | 分辨率·时长 | 最低显存 |
|---|---|---|---|---|---|---|
| Wan 2.1 | 阿里 Wan-AI | Apache 2.0 | 1.3B / 14B | T2V / I2V / V2V / FLF2V | 14B 480P/720P 约 5 秒 | 1.3B 约 8GB |
| Wan 2.2 | 阿里 Wan-AI | Apache 2.0 | MoE A14B / TI2V-5B 等 | T2V / I2V / 统一 TI2V / S2V / Animate | A14B 720P 约 5 秒;TI2V-5B 720P@24fps | TI2V-5B 为 4090 24GB 设计 |
| HunyuanVideo / -I2V | 腾讯 | ⚠️ 社区许可(排除 EU/UK/SK 商用) | 13B | T2V(+I2V 版) | 720P 约 5 秒 | FP8 + 分块 VAE 可压到 8GB |
| CogVideoX / 1.5 | 智谱 THUDM | 2B / 5B-I2V 均 Apache 2.0 | 2B / 5B | T2V / I2V | 约 6–10 秒,1.5 可到 1360×768 | 2B 约 12GB |
| Mochi 1 | Genmo | Apache 2.0 | 10B | 仅 T2V | 480p 约 5.4 秒 | GGUF 可压到 24GB |
| LTX-Video / LTX-2 | Lightricks | Apache 2.0 | 2B / 19B | T2V / I2V / 首尾帧 + 多关键帧 / 原生音频 | LTX-2 原生 4K@50fps,单 pass 最长 20 秒 | GGUF 约 6GB |
| Open-Sora 2.0 | 潞晨 hpcai-tech | Apache 2.0 | 11B | T2V / I2V(FLUX 初始化) | 768×768 约 5 秒 | FP8 约 22–24GB |
| Step-Video-T2V / TI2V | 阶跃星辰 StepFun | MIT 代码(权重许可未确认) | 30B | T2V / Text+Image→Video | 768×768 约 204 帧 | 官方约 78GB,单卡走量化 |
| Pyramid Flow | 北大 + 快手 + 北邮 | MIT | 2B | T2V / I2V | 768p 约 10 秒@24fps | <8GB(顺序 offload) |
| EasyAnimate / Latte | 阿里 PAI / 上海 AI Lab | Apache 2.0 | — | T2V / I2V | — | — |
来源:Wan 2.1 仓库 · Wan 2.2 仓库 · HunyuanVideo HF · CogVideo 仓库 · LTX-Video 仓库 · Open-Sora 2.0 论文 · Mochi 仓库
6.2 旗舰深入:Wan 2.2(目前开源综合首选)
- 首个开源 MoE 视频模型:A14B 是 MoE(active-14B、总参约 27B),另有为消费卡设计的 TI2V-5B(统一 T2V + I2V,720P@24fps,单张 4090 约 9 分钟出一段)。
- 模态覆盖最全:T2V、I2V、统一 TI2V、S2V-14B(语音驱动视频)、Animate-14B(角色动画)、编辑。
- 量化友好:FP8/GGUF 可压到约 8–12GB;社区有
city96、Kijai的现成量化权重和 ComfyUI 封装。 - ⚠️ 两个易错点:Wan 2.2 没有官方 FLF2V(首尾帧)权重(网上是社区复用 Wan 2.1 节点的工作流);Wan2.2-S2V 是「音频输入驱动」、不生成音频,和 Veo 3 的「生成音频」是两回事。
6.3 显存分级:你的卡能跑什么
| 显存 | 推荐方案(含量化) |
|---|---|
| 8GB | Wan2.1-T2V-1.3B(原生约 8GB)、CogVideoX 5B INT8、LTX-Video 2B GGUF(约 6GB)、LTX-2 GGUF(约 6GB + 充足内存)、HunyuanVideo FP8 + 分块 VAE(紧) |
| 12GB | Wan 2.1/2.2 14B GGUF Q4/Q5(480p)、Wan2.2-TI2V-5B FP8、HunyuanVideo GGUF Q4_K_M、EchoMimic V3 Flash(数字人,1.3B) |
| 16GB | Wan2.2 14B FP8(720p)、TI2V-5B FP8、HunyuanVideo FP8/Q6、LTX-2 dev FP8 |
| 24GB(3090/4090) | Wan2.2-TI2V-5B @ 720P@24fps(甜点)、Wan2.1-I2V-14B GGUF Q6(720p)、HunyuanVideo BF16/Q8、CogVideoX 5B BF16 |
| ≥80GB | 任何模型非量化:Wan2.2-A14B、HunyuanVideo 13B、Step-Video 30B |
关键技巧:把文本编码器(T5-XXL / UMT5XXL)做 CPU offload 可再省约 9GB,代价是每段多 10–20 秒;建议配 ≥32GB 内存。量化阶梯:Q8_0(近无损)→ Q6_K → Q5_K_M → Q4_K_M(实用下限)。量化仓库认准
city96、Kijai、unsloth/LTX-2-GGUF。
6.4 首尾帧 / 多关键帧:谁支持
| 模型 | 首尾帧 | 多关键帧(任意时间点) |
|---|---|---|
| LTX-Video / LTX-2 | ✅ | ✅ 原生(可链式,最多 4 张) |
| Wan 2.1 | ✅ 官方 FLF2V-14B 权重 | ❌(仅首 + 尾) |
| EasyAnimate V5.1 | ✅ | ❌ |
| HunyuanVideo-I2V | ✅(需社区 LoRA) | ❌ |
| CogVideoX / Mochi / Open-Sora | ❌ | ❌ |
结论:要首尾帧,首选 Wan 2.1-FLF2V-14B(唯一官方权重)或 LTX-2(原生多关键帧)。
6.5 开源里的原生音频:只有 LTX-2
截至发稿,开源视频模型里带原生音频生成的只有 LTX-2 / LTXV 2.x 一家(视频 + 音频单 pass,最长 20 秒、4K@50fps)。其余 Wan / HunyuanVideo / CogVideoX / Mochi / Open-Sora / Step-Video 都不生成音频;Wan2.2-S2V 是「用音频驱动」而非「生成音频」。
来源:LTX-2 发布稿(首个完整开源视频基础模型) · unsloth/LTX-2-GGUF · Wan 2.2 显存说明(willitrunai)
七、数字人 / 口播 / 唇形同步:一个独立赛道
数字人口播(音频驱动一张人像说话)虽然也算「AI 生成视频」,但它有一套完全不同的模型生态——多为轻量、实时或近实时、专注口型与表情,和上面那些做大片的大模型不是一回事。
| 模型 | 许可证 | 亮点 |
|---|---|---|
| EchoMimic V1/V2/V3 Flash(蚂蚁) | Apache 2.0 | V3 Flash 仅 1.3B / 12GB 显存,最实用的开源数字人 |
| Hallo / Hallo2 / Hallo3(复旦 + 百度 + 阿里) | MIT | Hallo2 首个 4K + 时长级肖像;Hallo3 基于 CogVideoX-5B-I2V |
| LatentSync 1.6(字节) | Apache 2.0 | 给已有视频做唇形同步(不是静图),事实上的工作马 |
| JoyHallo(京东健康) | MIT | 中文首选(少数主打中文的开源数字人) |
| MimicMotion(腾讯 + 上交) | Apache 2.0 | 姿态驱动、全身 |
| Ditto(蚂蚁) | Apache 2.0 | 实时、TensorRT 加速 |
| Wan2.2-Animate-14B | Apache 2.0 | 视频驱动角色动画(Wan 系继作) |
| SadTalker | Apache 代码 ⚠️ 捆绑 NC 权重 | 经典,但商用须替换权重 |
| Sonic / LivePortrait | CC-BY-NC / MIT 代码(InsightFace NC) | 学术强、商用受限 |
⚠️ 商用安全提醒:挑数字人模型要特别小心「捆绑的 NC(非商用)权重」——SadTalker 的 face-vid2vid + BFM、LivePortrait 的 InsightFace 都是 NC,代码许可干净不等于权重干净。图省事、要稳定商用,直接选商业产品 HeyGen / Hedra / D-ID(GAN / 实时方向)。
来源:EchoMimic V3 仓库 · LatentSync 仓库 · Hallo2 仓库 · JoyHallo 仓库
八、免费与国内工具速览 + 实操指南
版权提示:和音乐那篇一样,绝大多数网页免费层不可商用、且带水印;本节只作全景与「怎么先白嫖试起来」,正式商用前务必读各平台最新条款。
8.1 免费跑开源模型(不用自己的 GPU)
| 方式 | 说明 | 成本 |
|---|---|---|
| HF Spaces(ZeroGPU) | Wan 2.2 / Hunyuan / CogVideoX / LTX 都有官方或社区 Space,浏览器直用 | 免费约 5 分钟/天 + 每日约 3 次请求上限;PRO 约 9 美元/月 = 40 分钟 |
| fal.ai | 托管大量开源视频模型,最便宜的 API 通道 | CogVideoX 约 0.20 美元/段、Wan 2.5 约 0.05 美元/秒 |
| Replicate | 按秒计费 | ⚠️ 2025-07 起新账号无永久免费层(预付额度制) |
| Vast.ai / RunPod | 按小时租 GPU,自带 ComfyUI 模板 | H100 约 1.8–2 美元/小时 |
| 本地 ComfyUI | CogVideoX / Wan / HunyuanVideo 都有成熟节点 | 仅电费,门槛见 6.3 |
| 硅基流动 SiliconFlow | OpenAI-SDK 兼容、国内直连 | ⚠️ 旧文常说的「免费 Hunyuan/CogVideoX」已下线失效,目前只剩 Wan2.2-A14B(约 0.29 美元/段),1 美元注册赠额 |
来源:HF ZeroGPU 文档 · fal.ai Wan 2.2 指南 · 硅基流动
8.2 国内工具(免翻墙、中文友好)
| 工具 | 免费额度 | 水印 | 片长 | 亮点 |
|---|---|---|---|---|
| 即梦 AI / Dreamina(字节) | 新用户约 800 秒 + 约 260 积分/天 | 有 | 多档 | Seedance 2.0 的国内主入口 |
| 可灵 Kling(快手) | 66 积分/天 | 有(SynthID) | 720p | 3.0 多镜头 + 5 语原生音频 |
| 海螺 Hailuo(MiniMax) | 试用约 3 段/天 | 有 | 768p 6 秒 | 顶级运动物理 |
| Vidu(生数) | 80 积分/月 + Off-Peak 无限免费 | 有(720p) | 1080p | 长片原生音视频、多图参考 |
| 智谱清影(智谱) | 本地 CogVideoX 免费可商用 | — | — | 开源即免费、商用干净 |
| 通义万相(阿里) | Wan2.6 在 Qwen APP 免费 | 有 | — | Wan 模型的官方网页入口 |
| 腾讯元宝 | HunyuanVideo 1.5 免费 | 有 | — | 腾讯 Hunyuan 入口 |
| PixVerse(爱诗) | 100 + 30 积分/天 | 取决于档 | 1080p 15 秒 | 多镜头 + 原生音频 |
8.3 免费层商用现实(和音乐那篇同款结论)
- 网页免费层几乎都禁商用 + 强制水印:Kling / Hailuo / Vidu / Dreamina / 即梦 / PixVerse 全部如此,商用要从付费档(约 7–18 美元/月)起。
- 不可见水印无法移除:Kling 的 SynthID、Dreamina 的 C2PA 是像素级不可见水印,第三方工具去除违反 ToS。
- 真正「免费 + 可商用」= 本地开源:CogVideoX(智谱,Apache)最干净、最安全;Wan / LTX 同为 Apache;⚠️ HunyuanVideo 是社区许可、排除欧盟/英国/韩国商用、>1 亿 MAU 还要单独授权,不是纯开源,商用前务必确认你的所在地。
8.4 推荐路线阶梯
| 需求 | 推荐路线 |
|---|---|
| 最简:网页零配置试水(非商用) | Vidu(Off-Peak 无限免费)/ 即梦(Seedance 2.0)/ 可灵 |
| 可脚本:便宜或免费 API | 硅基流动 1 美元赠额跑 Wan2.2 + HF ZeroGPU PRO(约 9 美元/月,任意开源模型) |
| 全控 + 可商用:本地或租 GPU | 本地 ComfyUI 跑 CogVideoX(Apache、商用干净);要更高画质就租 GPU 跑 Wan2.2(Vast.ai 约 1.8 美元/小时) |
九、按用途选型决策表
| 你的用途 | 推荐方案 |
|---|---|
| 要最高画质的商业成片 | Seedance 2.0 / Kling 3.0 / Veo 3.1(三选一,按能否访问与价格) |
| 要一次出「画面 + 声音」 | Veo 3.1 / Seedance 2.0 / Kling 3.0 Omni;预算有限或要开源 → LTX-2 |
| 让一张静图动起来 | 单图 I2V:Wan 2.2 / HunyuanVideo-I2V / Runway Gen-4.5 |
| 精准控制开头和结尾 | 首尾帧:Wan 2.1-FLF2V / LTX-2(多关键帧)/ Kling Start & End Frames |
| 跨镜头角色 / 物体一致 | Pika 2.5 Scene Ingredients / Wan 2.7 R2V / Seedance 多图 |
| 本地免费 + 可商用 | CogVideoX(Apache,最干净)/ Wan(Apache)/ LTX-2(Apache,还带音频) |
| 低显存尝鲜(8–12GB) | LTX-Video / CogVideoX-2B / Wan2.1-1.3B |
| 数字人口播 / 教程 | 开源 EchoMimic V3 / LatentSync / JoyHallo(中文);图省事 → 商业 HeyGen |
| 给已有视频配音、做唇形 | LatentSync 1.6(开源)/ 商业 HeyGen |
| 物理仿真 / 机器人训练数据 | NVIDIA Cosmos 3 |
一句话总原则:先定「模态」,再定「开源 / 商业」,最后看「显存与商用许可」——三者按这个顺序筛,几乎总能快速收敛到一两个答案。
十、参考资料
排行榜与行业
- Artificial Analysis 文生视频竞技场 · 图生视频竞技场
- VBench / VBench-2.0 排行(HF) · VBench 项目页
- Stanford HAI AI Index 2026
- OpenAI Sora 停服说明(Help Center) · BBC:Sora 关停
论文与技术原理
- Open-Sora 2.0 论文 (arXiv 2503.09642) · Meta Movie Gen (arXiv 2410.13720)
- Seedance 1.0 技术报告 (arXiv 2506.09113) · NVIDIA Cosmos (arXiv 2501.03575)
- 视频扩散综述 (Springer 2025)
开源模型仓库
- Wan 2.1 (GitHub, Apache 2.0) · Wan 2.2 (GitHub, Apache 2.0)
- HunyuanVideo (HF, 社区许可) · HunyuanVideo-I2V
- CogVideo (GitHub, Apache 2.0) · LTX-Video (GitHub, Apache 2.0)
- Mochi (GitHub, Apache 2.0) · Open-Sora (GitHub) · Step-Video (GitHub)
- 量化权重:city96 · Kijai · unsloth/LTX-2-GGUF
商业模型官方
- Google Veo 3.1 · Kling 3.0(快手 IR)
- 字节 Seedance 2.0 · MiniMax Hailuo 2.3 · 生数 Vidu Q3
- Runway Gen-4.5 · Luma Ray3 · Pika · Adobe Firefly
实操接入