Wang
Zongwu
home
archives
categories
tags
Slides
Your browser does not support HTML5 video.
NEWS LETTER
视频生成模型研究综述
Home
2026
Scroll down
Welcome to Zongwu's Science Hub ✨
Residence:
Shanghai
Age:
18
Contact Me
05/20
12:08
zongwu wang
请输入密码继续
Other Articles
Algorithm
LTX-2_ Efficient Joint Audio-Visual Foundation Model
26/05/19
17:12
Article table of contents
TOP
1.
视频生成模型研究综述:从扩散模型到世界模拟器
1.1.
1. 引言
1.2.
2. 技术架构演进
1.2.1.
2.1 基于GAN与VAE的早期探索(2016–2020)
1.2.2.
2.2 基于自回归模型的方法(2020–2023)
1.2.3.
2.3 基于扩散模型的方法(2022–至今)
1.2.4.
2.4 基于Transformer的统一架构趋势(2025–2026)
1.3.
3. 关键技术组件
1.3.1.
3.1 时空表征学习:3D VAE与潜空间压缩
1.3.2.
3.2 条件注入机制
1.3.3.
3.3 长视频生成策略
1.3.4.
3.4 物理一致性与世界模型
1.4.
4. 代表性模型分析
1.4.1.
4.1 闭源商业模型
1.4.2.
4.2 开源生态模型
1.5.
5. 数据集与评估体系
1.5.1.
5.1 数据集建设
1.5.2.
5.2 评估指标
1.6.
6. 应用场景
1.7.
7. 挑战与未来方向
1.7.1.
7.1 长视频生成的连贯性
1.7.2.
7.2 物理规律的显式建模
1.7.3.
7.3 高效推理与实时生成
1.7.4.
7.4 伦理与安全
1.7.5.
7.5 统一多模态生成
1.8.
8. 结论
Please enter keywords to search