My App

ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction

解决的问题是生成复杂的motion和互动, 训练了即插即用的ReVision, 参数量较小只有1.5B. 预置真实物理知识, 生成分3步, 1)生成粗糙的视频. 2)从粗糙的视频中提取2D和3D特征, 生成一个3D建模, 然后生成精炼的3D motion序列. 3)它把生成的3D motion序列作为额外的信息又送入了原来的模型, 得到最终视频.

介绍

依靠大规模的模型和高质量的数据集, 目前已经可以生成高质量和时间连续的视频, 但是由于缺乏物理原理, 很难实现对模型的微调, 同时最近的研究表明一昧的堆参数并不能做到完全的概括特征.

他们提到了动画生成任务, 它们从这个任务中发现通过预置的2D关键点路径, 在更小的模型参数量和更小的数据集上取得了很好的效果(点名animate anyone), 因此他们就想, 能不能利用潜在的动作信息去知道更远的动作生成.

ReVision is to Regenerate Videos with explicit 3D physics representations, following an Extract–Optimize–Reinforce pipeline.

对三步生成进行了更详细的表述, 好像用的是别人的diffusion模型, 他们的工作只是提供了一个框架? 而且我读到这里还不知道它的输入是什么.

贡献有三个, 引入了物理知识; 三阶段的管道ReVision; 物理先验模型PPPM(arameterized Physical Prior Model)用于提取特征.

相关工作

视频生成

当前研究不能保持物理合理性, 业界目前的做法是添加额外的输入像文本描述, optical flow(箭头).

人类图片动画化

它是把人的动作targe为真实的姿势序列, 可以是flow, 关键点或掩码. 还介绍了额外一些提取motion特征的方法, 指出了普遍缺陷--密集的motion序列信息在真实世界是unavailable的.

初步知识

latent, svd, vae这些

方法

ReVisionMethod

它的输入应该是多样的, 这篇模型提出的就是一种范式的管道, 和残差的思想有点像, 压缩我在输出的基础上优化.

带motion条件的视频生成

他们从预训练的SVD开始, 加了两个channel, 1)来自3D序列的部分级分割掩码, 2)对应的置信度图.

motion-conditioned

40%的训练数据提供完整的motion序列, 这类数据的置信度为1. 30%的数据只提供了目标pose, 如上图stage1里target pose的蓝圈和黄圈, 黄圈代表当前位置, 篮圈代表要求的最终位置, 置信度为0.5. 30%的训练数据没有motion条件, 靠SVD生成, 置信度为0.

Revision

重复的表述, S1)根据给定的条件生成粗糙的视频, S2)通过一系列现成的模型提取特征, 运用PPPM使序列稳定连续高质量, 后面讲了一下PPPM具体怎么做的, S3)同S1一样的视频生成, 运用S2提取的特征

实验

数据集

自己标注了2万个视频, 提供逐帧的二维边界框和语义掩码(有点水呀, 我甚至觉得这里是他们工作量最大的地方)

实验+结果

竟然和SVD进行比较, 后面懒得看了.

On this page