Self-supervised Dance Video Synthesis Conditioned on Music
提出了一个自监督的舞蹈视频生成方法, 首先根据音乐生成人类骨骼序列, 然后运用 pose-to-appearance 映射生成最终的视频. 提出一个新的指标评价舞蹈质量.
介绍
几乎前十最多观看的youtube视频都是音乐跳舞视频. 这篇论文研究任何音乐控制的自动跳舞视频生成. 有了这个技术, 用户可以分享个人跳舞视频到社交媒体.
讲难点: 1) 舞蹈要与音乐同步, 反应音乐的内容; 2) 舞蹈动作建模困难, 包含长时间的时空结构; 3) 需要大量训练数据.
讲现状: 1) 看作检索问题, 限制了多样性; 2) 为了建模dance空间, 使用, 距离, 被纰漏忽略了一些特定的运动特征; 3) 为了获取数据集, 使用昂贵的动捕设备, 由专业的艺术家表演, 为了节约时间和成本, 提出OpenPose的方式, 但是依然labor-intensive.
提出自监督的方式, 直接使用网络视频进行训练, 不需要人类指导. 提出全局内容辨别器和注意力机制去解决跨注意力映射和维护音乐和舞蹈的和谐. Local 时间辨别器用于建模舞蹈移动, 专注于local coherence.
网络上找了100个视频, 3种类型, 多评价指标, 效果接近真实水平.
(20年的论文, 相关工作就不看了)
overview
大部分叙述是前面的重复, 第二阶段从pose骨骼生成图片级真实视频使用的是一个GAN模型pix2pixHD.
舞蹈生成器. audio信号按0.1秒分割, 通过一维卷积进行编码, 然后按时间顺序输入到一个双向两层GRU(Gate Recurrent Unit).
Local Temporal Discriminator. 很在意这里的Pose Generator是什么结构, 没提, 可能对了解GAN的人是一个常识, 生成pose后分割成K个重叠的序列.
Global Content Discriminator. 输入是music和pose, 使用1D卷积和全连接层组成一个分类器, 判断音乐和pose是否匹配.
Pose Perceptual Loss. 最近图卷积网络被拓展用于骨骼建模, 在预训练的GCN网络中匹配中间特征对姿态的细节和布局提供了更好的约束, 相对于计算, 距离.
POSE PERCEPTUAL LOSS
感知损失用于衡量两张图片或语音的相似度. , 距离用于计算pose序列的相似度, 在平移和缩放下是不变的, 并且使用OpenPose提取的骨骼pose引入了噪声.
使用预训练的图卷积网络, 定义a collection of layer as , 感知损失可定义为:
其中超参数 用于控制每一层的贡献.
实现
Pose Discriminator
用于评估舞蹈序列是否真实, 标准一个是帧内连接点的co-occurrences, 一个是帧间骨骼表示的时间连续性.
Local Temporal Discriminator
姿势生成器的目标之一是实现生成的骨架序列的时间连贯性. 举了个例子, 一个人移动了左腿, 右腿就应该保持多帧不动. 然后说他们通过Local Temporal Discriminator实现.
(后面没什么有用的信息...)
实验
基线模型和自己的模型比较, 类似消融实验: L1->增加Global D->增加Local D->增加感知损失(全结构). 数据集为100个网络视频, 3种风格, OpenPose提取骨架序列, 切割成5秒序列, 最后切了3千多个片段, 10%做测试集.
评估方法有用户研究, 跨模态评估(音乐与舞蹈匹配度), 定量评估(FID, Diversity, cross-model), 定性评估(找了几个演示视频分析).
感受
又是一篇提取pose和生成视频分开处理的文章. 读到后面还是使用了OpenPose提取pose, 和它前面不使用OpenPose的言论不符. 对了, 这篇给我很强的割裂感, 像是两个作者, 一个人负责一部分, 但是两个人又没有协调好分工.
介绍部分很接地气, 叙述很赞, 后面拉胯. 使用的方法在现在不算主流, GAN, GRU, GCN这些, 因此读得不深. 大致思路是在生成骨骼序列阶段, 利用两个判别器捕捉序列的不同方面, 并提出了一种新的姿态感知损失来产生自然的舞蹈, 视频生成阶段完全调预训练pix2pixHD.