Dance Any Beat: Blending Beats with Visuals in Dance Video Generation
讲局限: 音乐生成舞蹈对推动自动化编舞至关重要, 当前的方法处理骨骼的关键点序列, 而不是跳舞视频, 不能创作个性化个人舞蹈, 减少了真实世界的应用. 这些方法同时要求精细的关键点注释, 复杂的数据收集, 限制了自收集数据集的使用. 基于上述挑战, 他们提出了一个全新的任务, 直接从个人的图片, 在music的指导下生成视频. 讲方法: 设计了一个音乐编码器, 提取音乐风格, 动作, 旋律这些特征. 讲效果: 零样本生成能力, 可以使用未见图片生成, 评估指标有视频质量, 音频同步, beat同步, 还提出了一个新的指标.
介绍
这段分析很赞啊. 先讲了music to dance 任务的益处. 然后开始分析当前的方法主要是生成关键点序列, 虽然高效, 输出不够直观, 不支持animate特定的个人. 后面他指出一篇20年的文章, 注意到了这一点, 先生成关键点序列, 再生成特定个人的视频!(就是x-dancer我认为最大的创新点) 这种方法需要额外的motion转换模型, 复杂化了流程(其实我认为还有累计误差这一点), 后面还有一句话没理解, 它说"在真实世界中获取特定人的视频有难度"; 后面叙述思路与摘要一致, 音乐提取模块用了好几种方法, CLAP(提取舞蹈风格), Wav2CLIP(提取movement信息), Librosa(提取beat信息)
用的数据集还是AIST++, 但是强调了可以使用非AIST++出现的人物图片推理, 并指出多功能性源于其生成Latent Flow的方法, 该方法捕捉了使图像中任何人物动起来所需的所有基本运动信息. 接着介绍训练流程, 这里在method章节再仔细看.
相关工作
从音乐生成舞蹈序列交叉了motion生成和音乐理解任务, 目的是创作编舞动作, 与输入的音乐同步. 早期的研究专注于预测2D序列, 因为数据更容易获取, pose 评估方法比较成熟, 但是2D预测缺乏表现力与实用性, 于是转向3D生成, 然后围绕AIST++举了几个例子.
方法
overview
提到生成latent optical flows, 不是很理解先继续往后看.
音乐编码
这里讲音乐特征是怎么提取的, 舞蹈类型使用CLAP, 将音乐数据和自然语言表示相结合; movement信息使用Wav2CLIP, 该模型是在audio-visual数据集上训的; 旋律(Beat)信息使用Librosa, 一个音频信号分析的库.
前两个模型都使用AIST++数据集做过微调
Latent Flow Estimation
这一阶段是他们的核心, 目标是训练一个能够在潜在空间中准确捕捉和建模视频帧之间运动的自编码器.
其中表示back-warping操作, 不是很懂, 会再读一篇相关的论文补充理解, 是逐元素相乘操作符, m表示掩码图, f是backward latent optical flow, 是Latent Flow里的一个概念.
目标就变成了训练一个Flow Predictor预测m和f, 最后的损失函数使用的感知损失, 16年一篇论文提出的.
Latent Flow生成
前面一堆Diffusion的介绍, Diffusion的基模型是3D Unet, 16年的一篇文章提出的(真的很少见啊, 这还是一篇24年底的文章, 可能Latent Flow方法常用这种模型?还有几个作者都是搞3D重建的, 可能对这个模型比较熟悉吧). 这里music条件没讲怎么注入的, 估计是cross attention(咦, 16年还没有attnetion, 卷积的3D UNet怎么注入条件还真不清楚)(在实验部分讲了).
实验
使用AIST++ 数据集, 具体使用的视频数, 类型, CLAP和Wav2CLIP怎么微调的, 学习率, 优化器等等.
分析指标就不看了直接看结果分析吧:
- 视频质量, 与 MM-Diffusion 对比, DabFusion 性能优异, 指标是FVD, LPIPS, PSNR和SSIM.
- 对齐评估, 指标是CS, AV Align和它自创的2D-MM Align, 只与真实视频进行了比较.
- 视频风格, 跑了几种不同风格的结果, 进行对齐评估, 与真实值比较.
这种新提任务的论文都有个毛病没有baseline.
后面为了展示可以为任何个体生成舞蹈视频, 用了钢铁侠的图片作为例子, 图片很糊效果不算太好.
讨论
想回去了后面用大模型翻译过一下, 讲了几个局限性, 1)舞者的骨架无法被清晰区分, 2)首帧影响, 3)仅适用创建固定长度视频.
感受
看完摘要就被这篇论文吸引了, 所提出的问题正是我看到的当前generation dance from music的局限, 像在黑暗中找到一束光, 支撑我的idea, 即使不是顶会代码也没有开源QAQ.
这篇论文没有注意到有大量的社交媒体视频可以作为它的数据集, 限制了它的多样性, 不知道与他使用的方法本身局限性有没有关系; 没有使用ReferenceNet提取精细的人物特征, 限制了应用性. 所以他给我的感受是很土, 特别是首页放的那张图片, 嗯很土.
有一个很重要的信息Latent Flow这种方式也可以控制姿态, 后面找一篇相关论文读一下, 这种输出会大大消减diffusion模型本身的生成能力, 直接拿来用不太报希望.