EDGE: Editable Dance Generation From Music
创作新的舞蹈困难又耗时. EDGE基于DiT, 用JukeBox提取音乐特征, 有能力创作实时, 物理合理的舞蹈. 为测量物理合理性提供新的指标, 大的用户学习表明表现超过了SoTA.
介绍
因为移动的表现力强, 形式自由, 创作新的舞蹈动画很难, 需要冗繁的手部动画或动作捕捉, 使用计算的方式自动生成舞蹈有多方面的应用: 创作新舞, 游戏交互, 虚拟现实, 神经科学领域关于音乐和移动的研究.
当前方法的效果达不到用户的预期, 指标评估主观且复杂, 有些指标已经证明是有误的.
本工作提出新的SoTA模型EDGE(Editable Dance GEneration), 基于输入的音乐创作实时, 物理合理的动作. 基于DiT, 用JukeBox提取特征, 具有编辑能力. 发现之前评估指标的瑕疵, 提出了新的指标评估与地面的连接.
方法
pose表示. 24关节的SMPL表示方法, 6-DOF旋转角表示, 一个根转换, 每个脚的脚后跟和脚趾, 用01表示是否和地面接触, 一共是24x6+3+2x2=151.
Diffusion框架. 很常见的两个公式:
辅助损失. 用于提高在缺乏真实环境下物理真实性, 考虑关节位置, 速度, 脚部速度:
采样和指导. 使用classifier-free指导, 在训练过程中有w的概率进行无条件生成, 因此在推理过程中:
编辑. 通过掩码技术实现, 掩码, 用前向传播样本替换已知区域的约束, 说人话就是m为1的部分不进行采样.
生成长视频. 一张正方形的照片, 分为左右两部分, 我永远只提供左边的部分, 让模型去生成右边的部分, 再以新生成的部分作为左边的部分生成新的右边的部分, 由此生成长视频.
模型结构. music特征注入cross attention, 时间步1)与music一起注入cross attention, 2)feature-wise linear modulation (FiLM).
音乐特征提取. 先前的工作只关注舞蹈生成问题, 很少关注舞蹈信号表示本身, 其实它们是同等重要的, 举例在text-to-image领域, 放大text编码比放大diffusion模型更重要. 他们用Jukebox提取音乐特征, 通过内存优化, 可以实现在单GPU上的实时提取.
实验
使用 AIST++ 数据集进行训练和评估,并测试了真实世界音乐输入. 使用 PFC 指标评估物理真实性, 并分析了 FID 指标的缺陷. 通过多项物理合理性, 对齐和多样性基准的定量评估以及大规模用户研究, 证明EDGE在舞蹈质量生成上显著优于现有最佳方法, 并在网站上提供了定性样本.
感受
这篇在第一批论文的粗读列表里, 最近在考虑怎么把音频输入加入Diffusion, 想着找找灵感, 它的故事性差点意思, 但是逻辑性很强, 即使工作量不是很大, 没什么废话, 读下来很舒服, 无愧首次引入difffusion的名声.