My App

Autoregressive Video Generation Without Vector Quantization

提出了一种高效的非量化自回归视频生成方法NOVA, 通过帧间预测和集合间预测, 实现了高效且高质量的视频生成, 无需向量量化. NOVA在数据效率, 推理速度, 视觉保真度和视频流畅度上均表现出优势, 并在文本到图像生成任务上超过了最先进的图像扩散模型, 同时具有更低的训练成本.

介绍

LLM成为自然语言处理基础架构, 视觉生成领域通常使用向量量化将图片或视频转换为离散标记空间, 矢量化分词器很难同时实现高保真度和高压缩率, 高质量需要更多的标记.

视频扩散模型在紧凑的连续潜在空间中学习高度压缩的视频序列, 缺乏生成不同长度视频的灵活性, 不具备自回归能力.

NOVA将视频生成问题重新定义为非量化的帧间时间预测和空间集合间预测的自回归建模, 首个实现用于视频生成的非量化自回归模型.

具体来说, NOVA 按时间顺序逐帧预测, 并按空间随机顺序预测每个标记集, 同时利用了 1) 高保真度和紧凑的视觉压缩, 以降低训练和推理的成本, 以及 2) 上下文能力, 将多种视觉生成任务整合到一个统一模型中.

NOVA 在数据效率, 推理速度和视频流畅性方面超越了自回归模型, 与类似规模的扩散模型性能相当, 此外还在各种情境下展示了强大的零样本泛化能力.

方法

重新思考用于视频生成的自回归模型

两种现有的方法. 1)按顺序逐个生成片段, 把视频拆成一堆"token", 然后从左到右, 从上到下, 一个一个token地生成, 每生成一个新的token, 只能看到前面已经生成的token和文字/图像等条件. 2)把每一帧图像里的所有token当成一个集合, 然后随机遮住一些集合, 让模型同时预测这些被遮住的集合.

NOVA提出拆分生成步骤, 先生成每一帧内部的集合, 再生成整个视频的帧序列. 这样分开处理, 既能保证每一帧画面的细节, 又能让整个视频的时间顺序连贯, 还能处理更长的视频.

基于帧的预测的时间自回归模型

核心思路是让模型像看动画片一样一帧一帧地生成视频.

处理输入信息, 用一个预训练语言模型把文字描述转换成计算机能理解的特征, 用OpenCV计算视频中相邻帧之间的光流, 然后算出平均运动强度, 把这个运动信息和文字描述合并起来.

压缩视频信息, 用一个3D变分自编码器把视频帧压缩到潜在空间, 为了压缩后还能和后续模型匹配, 还加了一个可学习的patch嵌入层来调整数据格式.

逐帧生成视频, 生成第2帧时, 只能看文字描述, 运动信息和第1帧; 生成第3帧时, 只能看文字, 运动信息和第1, 2, 以此类推(块级因果掩码注意力), 为了让模型知道现在是第几帧, 画面像素在哪里, 还加了"时间和位置的正弦余弦编码".

统一生成流程, 把text-to-image和image-to-video统一成了一种因果生成过程, 推理时用kv-cache技术让生成视频更快.

截断

晦涩难懂, 还有两小节算了不看了.

实验

T2I的数据集, 初始训练来自DataComp、COYO、Unsplash、JourneyDB, 16M图像-文本对, 拓展训练600M对, 从LAION, DataComp, COYO筛选高美学评分图像.

T2V的数据集19M视频-文本对(Panda-70M子集 + 内部数据), 使用Pexels的1M高分辨率数据对微调.

时序层, 空间层(编码器-解码器结构), 扩散模块(3层MLP), 压缩模块(3D VAE), 16块A100上, T2I训练127天, T2V训练342天.

通过非量化自回归框架和时空解耦设计, 在视频生成任务中实现了高质量, 高效率, 高泛化性.

On this page