ENHANCING EXPRESSIVENESS IN DANCE GENERATION VIA INTEGRATING FREQUENCY AND MUSIC STYLE INFORMATION
music2dance任务, 同时考虑体裁, 节奏和旋律. 1)把频率信息加入VQ-VAE中, 2)训练了一个音乐模型提取体裁和节奏信息.
介绍
提到体裁, 节奏, 旋律三要素. 舞蹈动力学, 舞蹈者通过快或慢, 爆炸式或连续不断, 主要考虑动作的速度, 来表现强烈的情感.
介绍历史, 早期基于图的方法,缺乏多样性, 近代神经网络的方法, 缺少舞蹈的表达. 一些尝试考虑三要素中的部分, 但是没有全面考虑.
讲方法, ExpressiveBailando同时考虑三要素, 1) FreqVQ-VAE缓解速度同质化问题, 使用频率补充模块把频率信息集成到VQ-VAE, 2) 用了个音乐模型MERT提取音乐的体裁和节奏信息.
方法
频率补充的VQ-VAE
介绍了一下VQ-VAE的基本概念.
这种方法导致速度同质化, 受某篇论文的启发, 提取FreqVQ-VAE.
看上图, E->A->B->D这是原本的VQ-VAE结构, 他为了使序列编码后还保留频率信息, 在解码结构中加了层卷积, 构成新的结构, 它给叫做FCM, 训练的时候加了个loss(Focal Frequency loss, FFL). 具体的公式不再细究.
音乐特征
用得是其他论文里的预训练模型MERT, 包含体裁和旋律信息. 也提取了MFCC, 第一次见把这种信息称为handcraft 特征.
实验
数据集用的AIST++, cross-attentional GPT用的Bailando, 音乐提取用的MERT-330M, handcraft特征包括MFCC, MFCC delta, constant-Q chromagram, tempogram, 和 onset strength. 定量评估, 运动质量: FID和FID, 运动多样性: Div和Div, 节奏对齐: BAS. 定性评估, 关键帧比较. 重建实验, 比较 FreqVQ-VAE 和 VQ-VAE 的重建效果. 消融实验: 验证 FreqVQ-VAE 和 MERT 特征的有效性.
感受
很烂, 工作量就FreqVQ-VAE那里, 音乐提取用了个MERT.