【学习笔记】AI 视频生成全景:有哪些方式、技术范式、开源与商业 SOTA(2026)

32 min

整理日期:2026-06-30 涵盖范围:12 种生成模态、技术范式、商业前沿与排行榜、开源选型、数字人口播、免费与国内工具实操 说明:本笔记关键信息均标注来源链接,便于追溯核实;标注「(未确认)」或「据报道」者为待二次核验项。AI 视频迭代极快(很多模型半年一代),正式商用前请以各平台最新页面为准。文末「九、按用途选型决策表」可直接跳读结论。

一、核心结论(太长不看)

  1. 格局已变,而且很反直觉:开辟了 AI 视频赛道的 OpenAI Sora 已停服(web/app 2026-04-26 关停、API 2026-09-24 关停);而 2026 年的榜首被中国厂商包揽——字节跳动 Seedance 2.0 同时登顶 Artificial Analysis 文生视频、图生视频(带音频)双榜(Elo 1219 / 1195)。
  2. 原生音频是 2026 的分水岭:Veo 3 首创「一次生成画面 + 同步对白 + 音效 + 配乐」后,Seedance 2.0、Kling 3.0、Vidu Q3、Sora 2、Grok Imagine 全部跟上;而 Hailuo、Runway、Luma、Adobe 仍缺席——这是它们目前最大的短板。选型第一步先问「要不要声音」。
  3. 「用 AI 生成视频」远不止文生视频:至少有 12 种模态(图生、首尾帧、视频生视频、运镜、参考图一致性、延长、数字人口播、修复外扩、循环、世界模型……)。先选模态,再选模型,是这条赛道最重要的选型直觉。
  4. 开源已经逼近闭源:Wan 2.2(首个开源 MoE 视频模型)、HunyuanVideo、LTX-2(目前唯一开源、带原生音频的视频模型) 质量已接近商业模型;而 CogVideoX / LTX-Video 在 8–12GB 的消费级显卡上就能跑
  5. 免费层几乎都禁商用 + 带水印;真正「免费 + 可商用」的只有本地开源(Apache 系的 CogVideoX / Wan / LTX;⚠️ HunyuanVideo 是社区许可、排除欧盟/英国/韩国商用,不是纯开源)——这和姊妹篇《AI 音乐生成全景》是同一个结论。

来源:Artificial Analysis 文生视频竞技场 · 图生视频竞技场 · OpenAI Sora 停服说明 · BBC:Sora 关停报道


二、「用 AI 生成视频」有哪些方式:12 种模态总览

很多人一提「AI 生成视频」就默认等于「文生视频」,其实那只是最基础的一种。先把「你要解决的是哪一类问题」想清楚,比纠结用哪个模型重要得多——下面这张表是全文的索引,后续每一节都是在展开其中某一行。

模态一句话定义最适合的场景代表模型 / 工具
① 文生视频 T2V只凭一段文字生成视频零素材、从零构思创意Veo 3.1、Seedance 2.0、Kling 3.0、Wan 2.2
② 单图生视频 I2V给一张图当首帧,补全后续运动让静图「动起来」、给画作注入生命Runway Gen-4.5、Wan 2.2、HunyuanVideo-I2V
③ 首尾帧 / 多关键帧 I2V给定起止帧(甚至中段帧),生成中间过渡精准控制开头和结尾、做转场Wan 2.1-FLF2V、LTX-2、Kling Start & End Frames
④ 视频生视频 V2V / 风格化改风格或内容、保留原片的运动结构影视调色、风格迁移、换背景Runway Gen-4 V2V、Pika Pikaswaps、Wan V2V
⑤ 视频延长在已有片段末尾接续、延长时长长镜头、续拍、补镜头Kling Extend、Runway Extend、Veo Extend
⑥ 运镜 / Motion Brush / Dolly Zoom指定镜头运动方向与强度,或涂抹局部让特定区域动电影级镜头语言、推拉摇移Runway Camera Control + Motion Brush、Kling Motion Control
⑦ 参考图 / 角色一致性喂多张参考图(角色、物体、服装、场景),保持各自身份跨镜头不变系列短片、AI 短剧、IP 稳定出场Pika 2.5 Scene Ingredients、Wan 2.7 R2V、Seedance 多图
⑧ 循环 / 无缝视频首尾衔接、可无限循环播放背景动图、MV、氛围素材Runway / Pika 的 loop 模式
⑨ 数字人 / 口播 / 唇形同步用音频或文本驱动一张人像/数字人说话,口型表情对齐营销口播、虚拟主播、教程EchoMimic V3、LatentSync、HeyGen、JoyHallo(中文)
⑩ 视频修复 / 外扩 / 对象擦除涂抹移除画面元素,或扩展画幅去路人、横竖屏转换、补全Runway Inpainting、各模型 uncrop
⑪ 原生音频 / 配乐视频与同步的对白、音效、配乐一次生成有声短片、广告、叙事成片Veo 3 / 3.1、Seedance 2.0、Kling 3.0 Omni、LTX-2(开源)
⑫ 3D / 4D / 世界模型隐式学习物理、几何、动力学,把视频当「世界模拟器」机器人 / 自动驾驶训练数据、物理仿真NVIDIA Cosmos、Sora 的世界模型愿景

一个直觉判断:①② 是「从无到有」,③④⑤⑥⑦⑧⑩ 是「在已有素材上加工」,⑨ 是「让数字人说话」,⑪是「给视频配音」,⑫是「拿视频当仿真器」。本文第四节讲商业模型(主要覆盖 ①②③⑦⑪),第六节讲开源(①②③④),第七节专讲 ⑨,第八节讲怎么免费跑起来。


三、技术原理:AI 是怎么「拍视频」的?

3.1 一段演进:U-Net → DiT → Flow Matching

早期的视频生成沿用图像扩散的 U-Net 卷积骨干,但卷积的「归纳偏置」限制了把模型做大。转折点是 Sora(2024 年 2 月)引入 DiT(Diffusion Transformer,扩散 Transformer):把视频编码成一串时空 token,用 Transformer 在潜空间里迭代去噪。Transformer 的好处是可以堆到几十 B 参数——质量随规模近乎线性提升,DiT 从此成为事实标准。

2024–2025 年,业界又把训练目标从经典 DDPM 换成 Flow Matching / Rectified Flow(整流流):它把「噪声」和「真实数据」用一条近似直线的轨迹连起来,采样步更少、大规模训练更稳更省。一句话:规模驱动质量,Flow Matching 让大规模训练更经济

来源:Open-Sora 2.0 论文(含 DiT 对比)(arXiv 2503.09642) · Meta Movie Gen 论文(Flow Matching)(arXiv 2410.13720)

3.2 六条技术范式

注意:「DiT 骨干」和「Flow Matching 训练」是两个正交的选择,现在主流大模型大多是「DiT + Flow Matching」组合,并不是对立路线

范式核心思想优 / 缺点代表模型
DiT 扩散3D-VAE 编码时空潜表示,DiT 在潜空间迭代去噪可扩展、质量随规模提升 / 多步采样、算力高Sora、HunyuanVideo(13B)、Wan 2.x
Flow Matching(整整流)用「速度场」把噪声沿直线推向数据,常与 DiT 组合步数更少、训练更稳 / 仍多步迭代Meta Movie Gen(30B)、Mochi、LTX-Video、Kling
自回归 next-token视频先离散化成 token,像 LLM 逐 token 预测任意条件可作上下文、流式友好 / 慢、误差累积、纹理常弱于扩散Google VideoPoet、Meta Emu Video、Show-o、MAGI-1
掩码生成式(MAR 风格)按掩码比例并行预测 token,介于扩散与自回归之间并行解码比 AR 快、双向上下文 / 难建模强时序因果MAGVIT、MarDini、MAGI(CVPR 2025)
混合(AR + 扩散)AR/LM 出结构与低频信号保时序,扩散精修高频帧保纹理兼顾时序与纹理 / 工程复杂CausVid(MIT 2025,秒级出片)
GAN / 实时判别式网络做单图 + 音频驱动的口型表情合成,毫秒级实时、低成本 / 保真度上限低于扩散HeyGen、Hedra、D-ID(数字人方向)

⚠️ 两个常见误读:Open-Sora 2.0 是扩散系(不是自回归)Meta Movie Gen 是纯 Flow-Matching DiT(不是混合范式)

3.3 质量驱动与开放难题

  • 时序一致性:跨帧不闪不变形,是 DiT 时空注意力 + 长上下文的最大收益。
  • 运动幅度 vs 稳定性:大运动容易结构崩坏;高 Elo 的模型通常是「敢动又不动」。
  • 提示遵循:复杂场景、多主体提示下,物体数量、空间关系、动作经常丢失(⑦ 参考图能部分缓解)。
  • 物理真实感:流体、碰撞、刚体、镜面反射仍是弱项;Sora 2 把「物理更准」当卖点。
  • 长时长连贯:超过 10 秒后剧情与身份容易漂移,Vidu Q3 主打的「首个长片原生音视频」正指向这个战场。
  • 算力成本:训练动辄上千万美元(Open-Sora 2.0 用约 20 万美元属极端低成本特例);推理多步昂贵,「少步 / 蒸馏 / 单 pass」是降本主线。

来源:Artificial Analysis 视频竞技场方法学 · 视频扩散综述 (Springer 2025)


四、商业前沿全景与排行榜(2026)

4.1 Artificial Analysis 视频竞技场(2026-06 快照)

这个榜用的是众包盲测 A/B(同一个 prompt 两个模型各生成一次,投票者不知模型身份选优),按 Elo 积分排名,是目前最被认可的第三方榜。最大看点:Top 名次几乎被中国厂商包揽,Veo 排到第 10,Runway / Pika / Luma 跌出 Top 24

文生视频(带音频)Top 5

#模型厂商Elo发布
1Seedance 2.0(720p)字节跳动12192026-02
2HappyHorse-1.1阿里 ATH11512026-06
3HappyHorse-1.0阿里 ATH11232026-04
4SkyReels V4昆仑万维11062026-03
5Kling 3.0(1080p Pro)快手11042026-02
10Veo 3.1Google10942026-01

图生视频(带音频)Top 2:① Seedance 2.0(Elo 1195);② xAI Grok Imagine Video 1.5(Elo 1114,2026-06 发布,比 Veo 3.1 还高)。

⚠️ 注意 arena.ai(LMArena)和 artificialanalysis.ai两套不同的竞技场,Elo 标尺不同,别混着引用。VBench-2.0(更偏内在保真度的学术榜)上,中国模型占据前 10 约八席(各模型当前精确分未确认,以 HF 官方面板为准)。

来源:AA 文生视频榜 · AA 图生视频榜 · VBench 榜(HF)

4.2 主力模型速写

模型(厂商)最新版本原生音频亮点 / 短板
Veo(Google)Veo 3.1 / 3.1 Fast(2026-01)✅ 首创4K、广播级、Gemini 内约 3 个/天免费、SynthID 水印、免费层允许商用;8 秒原生片段上限、提示语法敏感
Sora(OpenAI)Sora 2(2025-09)已停服(web/app 2026-04-26、API 2026-09-24);定位「世界模拟器」,为机器人训练铺路
Kling 可灵(快手)Kling 3.0 / 3.0 Omni(2026-02)✅(2.6 起)5 语多角色对白、多镜头故事板、4K(部分未确认);66 积分/天免费、SynthID、非商用,出口/B2B 第一
Hailuo 海螺(MiniMax)Hailuo 02 / 2.3(2025-10)顶级运动与物理真实感、性价比之王;最大短板是无原生音频、片段偏短(1080p 仅 6 秒)
Seedance(字节/即梦/豆包)Seedance 2.0(2026-02)双榜 #1、单次可输入多至 9 图 + 3 视频 + 3 音频、方言唇形;2.0 非 1080p 原生(720p 放大)
Vidu(生数)Vidu Q3(2026-01)业内首个「单次长片原生音视频」、多图参考;Q = Quality(不是 Quarter)
RunwayGen-4.5(2025-12)❌(独立 Audio tab)顶级物理保真、跨镜头角色一致性、Motion Brush 丰富;已丢榜首、Gen-4 仅 I2V
PikaPika 2.5(约 2025-11)✅(Sound Effects)Scene Ingredients 多元素合成、Pikaframes 转场、一键特效;画质竞赛已掉队,免费层无水印且可商用
LumaRay3.2(2026-06)自然物理运动、Ray3 Modify 可保留真人表演做 AI 编辑;无原生音频
Adobe Firefly原地迭代(2025-12 大更新)训练数据商用安全、企业版有版权赔偿;本质是聚合器(托管 Kling/Veo/Runway 等)
NVIDIA CosmosCosmos 3(2026-05)⚠️ 仅环境音定位物理 AI / 世界模型(机器人、自动驾驶仿真),不是消费级视频工具
黑马Grok Imagine 1.5(xAI)、HappyHorse(阿里 ATH)、SkyReels V4(昆仑)、PixVerse V6(爱诗)I2V 榜 / 无音频榜冲击榜首,成本更低

4.3 旗舰深入之一:Seedance 2.0(字节,当前双榜 #1)

Seedance 2.0 是 2026 年上半年最值得关注的模型,它把榜首优势主要建立在原生音频上——去掉音频维度后,阿里的 HappyHorse 反而更高。几个关键点:

  • 全模态输入:单次可同时喂「文字 + 最多 9 张图 + 3 段视频 + 3 段音频」,做参考一致性、首尾帧、角色替换、视频续写都不在话下。
  • 原生音频:双声道立体声,BGM、环境音效、旁白并行生成,还支持多语种 + 方言(川粤)唇形同步。
  • 规格:原生 720p(1080p 靠放大),单段 4–15 秒,支持多镜头切换。
  • 国内入口:在即梦 AI / 豆包 app(豆包「照片动起来」每天约 5 次免费)里直接用;API 走火山引擎,海外走 fal.ai、Replicate。
  • 短板:非原生 1080p、复杂物理 / 多角色对话 / 唱歌仍不完美。

来源:Seedance 2.0 官方博客 · The Verge 报道 · Seedance 1.0 论文 (arXiv 2506.09113)

4.4 旗舰深入之二:Veo 3.1(Google,原生音频先驱)

  • 首创原生音频:从 Veo 3(2025-05 Google I/O)起,一次前向就同步输出对白、音效、环境声与画面,覆盖到 3.1 的「Ingredients to Video」(多参考图)、「Frames to Video」(首尾帧)、Extend、运镜等全部功能。
  • 规格:720p / 1080p / 4K,原生 8 秒(可扩展到 1 分钟+)。
  • 访问与价格:Gemini app、Google Flow、Gemini API、Vertex AI;Veo 3.1 Fast 约 0.15 美元/秒(8 秒约 1.2 美元)。Gemini 免费版里可用,约每天 3 个 8 秒视频,带不可见 SynthID 水印,免费层允许商用(按 Google 标准条款)。
  • 提示写法:Veo 3 对语法极其敏感,社区总结了一套 CASCADE 提示法——Camera(机位)→ Ambience(环境)→ Subject(主体)→ Context(场景)→ Action(动作)→ Dialogue(对白,用方括号如 [0s-2s] 角色: "...")→ Emotion(情绪);格式写错会静默生成无声片段。

来源:Google Veo 3.1 博客 · Google DeepMind Veo 页 · Google Cloud Veo 提示指南

4.5 免费层横向对比

模型免费额度水印免费层商用原生音频
Veo 3 / 3.1(Gemini 内)约 3 视频/天,8 秒不可见 SynthID允许
Kling 3.066 积分/天(仅 720p)可见 + 不可见 SynthID❌ 非商用
Hailuo约 2–5 次/天(768p 6 秒)有(右下角)
Seedance 2.0 / 即梦约 120 积分/天 + 豆包 5 次/天有(免费层)需付费 / API
Vidu Q380 积分/月 + Off-Peak 无限免费有(720p)❌ 非商用
Runway Gen-4 Turbo一次性 125 积分有(不可移)⚠️ 未确认
Pika 2.580 积分(仅 480p / I2V 特效)无水印允许
Luma约 30 次/月(720p)❌ 非商用
Adobe Firefly有限月度积分取决于计划企业版有赔偿

结论性观察:免费层里最宽松且带原生音频的是 Pika(无水印 + 商用)和 Veo(经 Gemini,允许商用);最严苛的是 Kling(SynthID + 非商用 + 仅 720p)。


五、原生音频:2026 的分水岭

这是 2026 年选型的第一分水岭:你的视频要不要带声音(对白、音效、配乐)?如果要,可选范围会立刻收窄一大半。

有原生音频(一次生成)没有原生音频(最大短板)
Veo 3 / 3.1(首创)、Sora 2、Seedance 2.0、Kling 2.6 / 3.0 Omni、Vidu Q3、PixVerse V6、SkyReels V4、Wan 2.7、Grok Imagine、开源 LTX-2Hailuo 全系、Runway(独立 Audio tab,非模型级)、Luma Ray 全系、Adobe Firefly、NVIDIA Cosmos(仅环境音)

为什么原生音频重要:以前做一支带声的视频要串起「生成画面 → TTS 配音 → 拟音 → 配乐」一整条流水线,音画对齐费时费力;原生音频让这些一次生成、天然同步,自动唇形、环境音、配乐全包,直接解锁了「有人物说话」的叙事视频。

提示:如果你要的是给已有视频配音、或单独做配乐,而不是「画面 + 声音一起生成」,那是另一条路——见姊妹篇《AI 音乐生成全景》(AI 作曲 / 免版税音乐),以及第七节的 LatentSync(给已有视频做唇形同步)。

来源:Google Developers Blog:Veo 3 · MiniMax Hailuo 2.3 公告 · Kling 2.6 音频指南


六、开源选型:Wan / HunyuanVideo / LTX-2 / CogVideoX 与对手们

6.1 主力开源模型横向对比

模型开发方许可证参数模态分辨率·时长最低显存
Wan 2.1阿里 Wan-AIApache 2.01.3B / 14BT2V / I2V / V2V / FLF2V14B 480P/720P 约 5 秒1.3B 约 8GB
Wan 2.2阿里 Wan-AIApache 2.0MoE A14B / TI2V-5B 等T2V / I2V / 统一 TI2V / S2V / AnimateA14B 720P 约 5 秒;TI2V-5B 720P@24fpsTI2V-5B 为 4090 24GB 设计
HunyuanVideo / -I2V腾讯⚠️ 社区许可(排除 EU/UK/SK 商用)13BT2V(+I2V 版)720P 约 5 秒FP8 + 分块 VAE 可压到 8GB
CogVideoX / 1.5智谱 THUDM2B / 5B-I2V 均 Apache 2.02B / 5BT2V / I2V约 6–10 秒,1.5 可到 1360×7682B 约 12GB
Mochi 1GenmoApache 2.010B仅 T2V480p 约 5.4 秒GGUF 可压到 24GB
LTX-Video / LTX-2LightricksApache 2.02B / 19BT2V / I2V / 首尾帧 + 多关键帧 / 原生音频LTX-2 原生 4K@50fps,单 pass 最长 20 秒GGUF 约 6GB
Open-Sora 2.0潞晨 hpcai-techApache 2.011BT2V / I2V(FLUX 初始化)768×768 约 5 秒FP8 约 22–24GB
Step-Video-T2V / TI2V阶跃星辰 StepFunMIT 代码(权重许可未确认)30BT2V / Text+Image→Video768×768 约 204 帧官方约 78GB,单卡走量化
Pyramid Flow北大 + 快手 + 北邮MIT2BT2V / I2V768p 约 10 秒@24fps<8GB(顺序 offload)
EasyAnimate / Latte阿里 PAI / 上海 AI LabApache 2.0T2V / I2V

来源:Wan 2.1 仓库 · Wan 2.2 仓库 · HunyuanVideo HF · CogVideo 仓库 · LTX-Video 仓库 · Open-Sora 2.0 论文 · Mochi 仓库

6.2 旗舰深入:Wan 2.2(目前开源综合首选)

  • 首个开源 MoE 视频模型:A14B 是 MoE(active-14B、总参约 27B),另有为消费卡设计的 TI2V-5B(统一 T2V + I2V,720P@24fps,单张 4090 约 9 分钟出一段)。
  • 模态覆盖最全:T2V、I2V、统一 TI2V、S2V-14B(语音驱动视频)、Animate-14B(角色动画)、编辑。
  • 量化友好:FP8/GGUF 可压到约 8–12GB;社区有 city96Kijai 的现成量化权重和 ComfyUI 封装。
  • ⚠️ 两个易错点:Wan 2.2 没有官方 FLF2V(首尾帧)权重(网上是社区复用 Wan 2.1 节点的工作流);Wan2.2-S2V 是「音频输入驱动」、不生成音频,和 Veo 3 的「生成音频」是两回事。

6.3 显存分级:你的卡能跑什么

显存推荐方案(含量化)
8GBWan2.1-T2V-1.3B(原生约 8GB)、CogVideoX 5B INT8、LTX-Video 2B GGUF(约 6GB)LTX-2 GGUF(约 6GB + 充足内存)、HunyuanVideo FP8 + 分块 VAE(紧)
12GBWan 2.1/2.2 14B GGUF Q4/Q5(480p)、Wan2.2-TI2V-5B FP8、HunyuanVideo GGUF Q4_K_M、EchoMimic V3 Flash(数字人,1.3B)
16GBWan2.2 14B FP8(720p)、TI2V-5B FP8、HunyuanVideo FP8/Q6、LTX-2 dev FP8
24GB(3090/4090)Wan2.2-TI2V-5B @ 720P@24fps(甜点)、Wan2.1-I2V-14B GGUF Q6(720p)、HunyuanVideo BF16/Q8、CogVideoX 5B BF16
≥80GB任何模型非量化:Wan2.2-A14B、HunyuanVideo 13B、Step-Video 30B

关键技巧:把文本编码器(T5-XXL / UMT5XXL)做 CPU offload 可再省约 9GB,代价是每段多 10–20 秒;建议配 ≥32GB 内存。量化阶梯:Q8_0(近无损)→ Q6_K → Q5_K_M → Q4_K_M(实用下限)。量化仓库认准 city96Kijaiunsloth/LTX-2-GGUF

6.4 首尾帧 / 多关键帧:谁支持

模型首尾帧多关键帧(任意时间点)
LTX-Video / LTX-2✅ 原生(可链式,最多 4 张)
Wan 2.1官方 FLF2V-14B 权重❌(仅首 + 尾)
EasyAnimate V5.1
HunyuanVideo-I2V✅(需社区 LoRA)
CogVideoX / Mochi / Open-Sora

结论:要首尾帧,首选 Wan 2.1-FLF2V-14B(唯一官方权重)或 LTX-2(原生多关键帧)。

6.5 开源里的原生音频:只有 LTX-2

截至发稿,开源视频模型里带原生音频生成的只有 LTX-2 / LTXV 2.x 一家(视频 + 音频单 pass,最长 20 秒、4K@50fps)。其余 Wan / HunyuanVideo / CogVideoX / Mochi / Open-Sora / Step-Video 都不生成音频;Wan2.2-S2V 是「用音频驱动」而非「生成音频」。

来源:LTX-2 发布稿(首个完整开源视频基础模型) · unsloth/LTX-2-GGUF · Wan 2.2 显存说明(willitrunai)


七、数字人 / 口播 / 唇形同步:一个独立赛道

数字人口播(音频驱动一张人像说话)虽然也算「AI 生成视频」,但它有一套完全不同的模型生态——多为轻量、实时或近实时、专注口型与表情,和上面那些做大片的大模型不是一回事。

模型许可证亮点
EchoMimic V1/V2/V3 Flash(蚂蚁)Apache 2.0V3 Flash 仅 1.3B / 12GB 显存,最实用的开源数字人
Hallo / Hallo2 / Hallo3(复旦 + 百度 + 阿里)MITHallo2 首个 4K + 时长级肖像;Hallo3 基于 CogVideoX-5B-I2V
LatentSync 1.6(字节)Apache 2.0已有视频做唇形同步(不是静图),事实上的工作马
JoyHallo(京东健康)MIT中文首选(少数主打中文的开源数字人)
MimicMotion(腾讯 + 上交)Apache 2.0姿态驱动、全身
Ditto(蚂蚁)Apache 2.0实时、TensorRT 加速
Wan2.2-Animate-14BApache 2.0视频驱动角色动画(Wan 系继作)
SadTalkerApache 代码 ⚠️ 捆绑 NC 权重经典,但商用须替换权重
Sonic / LivePortraitCC-BY-NC / MIT 代码(InsightFace NC)学术强、商用受限

⚠️ 商用安全提醒:挑数字人模型要特别小心「捆绑的 NC(非商用)权重」——SadTalker 的 face-vid2vid + BFM、LivePortrait 的 InsightFace 都是 NC,代码许可干净不等于权重干净。图省事、要稳定商用,直接选商业产品 HeyGen / Hedra / D-ID(GAN / 实时方向)。

来源:EchoMimic V3 仓库 · LatentSync 仓库 · Hallo2 仓库 · JoyHallo 仓库


八、免费与国内工具速览 + 实操指南

版权提示:和音乐那篇一样,绝大多数网页免费层不可商用、且带水印;本节只作全景与「怎么先白嫖试起来」,正式商用前务必读各平台最新条款。

8.1 免费跑开源模型(不用自己的 GPU)

方式说明成本
HF Spaces(ZeroGPU)Wan 2.2 / Hunyuan / CogVideoX / LTX 都有官方或社区 Space,浏览器直用免费约 5 分钟/天 + 每日约 3 次请求上限;PRO 约 9 美元/月 = 40 分钟
fal.ai托管大量开源视频模型,最便宜的 API 通道CogVideoX 约 0.20 美元/段、Wan 2.5 约 0.05 美元/秒
Replicate按秒计费⚠️ 2025-07 起新账号无永久免费层(预付额度制)
Vast.ai / RunPod按小时租 GPU,自带 ComfyUI 模板H100 约 1.8–2 美元/小时
本地 ComfyUICogVideoX / Wan / HunyuanVideo 都有成熟节点仅电费,门槛见 6.3
硅基流动 SiliconFlowOpenAI-SDK 兼容、国内直连⚠️ 旧文常说的「免费 Hunyuan/CogVideoX」已下线失效,目前只剩 Wan2.2-A14B(约 0.29 美元/段),1 美元注册赠额

来源:HF ZeroGPU 文档 · fal.ai Wan 2.2 指南 · 硅基流动

8.2 国内工具(免翻墙、中文友好)

工具免费额度水印片长亮点
即梦 AI / Dreamina(字节)新用户约 800 秒 + 约 260 积分/天多档Seedance 2.0 的国内主入口
可灵 Kling(快手)66 积分/天有(SynthID)720p3.0 多镜头 + 5 语原生音频
海螺 Hailuo(MiniMax)试用约 3 段/天768p 6 秒顶级运动物理
Vidu(生数)80 积分/月 + Off-Peak 无限免费有(720p)1080p长片原生音视频、多图参考
智谱清影(智谱)本地 CogVideoX 免费可商用开源即免费、商用干净
通义万相(阿里)Wan2.6 在 Qwen APP 免费Wan 模型的官方网页入口
腾讯元宝HunyuanVideo 1.5 免费腾讯 Hunyuan 入口
PixVerse(爱诗)100 + 30 积分/天取决于档1080p 15 秒多镜头 + 原生音频

8.3 免费层商用现实(和音乐那篇同款结论)

  • 网页免费层几乎都禁商用 + 强制水印:Kling / Hailuo / Vidu / Dreamina / 即梦 / PixVerse 全部如此,商用要从付费档(约 7–18 美元/月)起。
  • 不可见水印无法移除:Kling 的 SynthID、Dreamina 的 C2PA 是像素级不可见水印,第三方工具去除违反 ToS。
  • 真正「免费 + 可商用」= 本地开源:CogVideoX(智谱,Apache)最干净、最安全;Wan / LTX 同为 Apache;⚠️ HunyuanVideo 是社区许可、排除欧盟/英国/韩国商用、>1 亿 MAU 还要单独授权,不是纯开源,商用前务必确认你的所在地。

8.4 推荐路线阶梯

需求推荐路线
最简:网页零配置试水(非商用)Vidu(Off-Peak 无限免费)/ 即梦(Seedance 2.0)/ 可灵
可脚本:便宜或免费 API硅基流动 1 美元赠额跑 Wan2.2 + HF ZeroGPU PRO(约 9 美元/月,任意开源模型)
全控 + 可商用:本地或租 GPU本地 ComfyUI 跑 CogVideoX(Apache、商用干净);要更高画质就租 GPU 跑 Wan2.2(Vast.ai 约 1.8 美元/小时)

来源:各平台官方定价页 · HF ZeroGPU 配额 · CogVideoX 仓库(Apache 2.0)


九、按用途选型决策表

你的用途推荐方案
要最高画质的商业成片Seedance 2.0 / Kling 3.0 / Veo 3.1(三选一,按能否访问与价格)
要一次出「画面 + 声音」Veo 3.1 / Seedance 2.0 / Kling 3.0 Omni;预算有限或要开源 → LTX-2
让一张静图动起来单图 I2V:Wan 2.2 / HunyuanVideo-I2V / Runway Gen-4.5
精准控制开头和结尾首尾帧:Wan 2.1-FLF2V / LTX-2(多关键帧)/ Kling Start & End Frames
跨镜头角色 / 物体一致Pika 2.5 Scene Ingredients / Wan 2.7 R2V / Seedance 多图
本地免费 + 可商用CogVideoX(Apache,最干净)/ Wan(Apache)/ LTX-2(Apache,还带音频)
低显存尝鲜(8–12GB)LTX-Video / CogVideoX-2B / Wan2.1-1.3B
数字人口播 / 教程开源 EchoMimic V3 / LatentSync / JoyHallo(中文);图省事 → 商业 HeyGen
给已有视频配音、做唇形LatentSync 1.6(开源)/ 商业 HeyGen
物理仿真 / 机器人训练数据NVIDIA Cosmos 3

一句话总原则:先定「模态」,再定「开源 / 商业」,最后看「显存与商用许可」——三者按这个顺序筛,几乎总能快速收敛到一两个答案。


十、参考资料

排行榜与行业

论文与技术原理

开源模型仓库

商业模型官方

实操接入