FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios
提出了FlexiAct方法, 实现了在异质场景中灵活控制动作, 允许在不同布局, 视角和骨骼结构之间进行动作迁移, 同时保持身份一致性. 研究引入了RefAdapter, 一种轻量级图像条件适配器, 用于空间结构适应和一致性保持. 另外它们发现去噪过程在低频时间步更关注motion, 在高频时间步更关注外观细节, 因此引入FAE(Frequency-aware Action Extraction), 在去噪过程中直接实现动作提取.
介绍
动作定制在影视, 游戏和动画中应用广泛, 但传统方法成本高昂且受限于空间结构一致性.
本文提出 FlexiAct, 一种灵活的动作定制方法, 能够在保持动作和外观一致性的同时, 将动作从参考视频转移到任意目标图像, 无需空间结构对齐.
FlexiAct 基于 CogVideoX-I2V, 使用两阶段训练并引入了 RefAdapter 和 Frequency-aware Action Extraction(FAE)两个组件, 分别解决空间结构适应和精确动作提取控制的问题.
为异质场景建立了一个benchmark.
相关工作
全局动作定制(Global Motion Customization)的控制信号是相机移动, 物体轨迹这些特定的motion模式, 转移参考视频的整体运动状态(如下图), 难点在于从参考视频中高效的提取出motion模式, 目前大多数方法难以适应特定主体的运动.
基于预定义信号的动作定制最熟悉的就是animate anyone, DWpose作为激活信号, 这类方法1)高度依赖预定义的控制信号, 2)缺乏非人类场景.
基于条件注入的视频生成. 当前条件注入有两种:1)cross-attention注入, 难以确保外表一致性, 2)逐层注入(ReferenceNet), 训练成本高. RefAdapter对这两点进行了改进.
方法
基础的Image-to-Video扩散模型
CogVideoX-I2V是MMDiT-based(Multimodal Diffusion Transformer)的模型, 给定参考图片 和文本提示词, 生成, 使用3D VAE压缩视频和图片, 和SD差不多没什么特别的.
RefAdapter
它们发现直接使用I2V有以下问题1)动作提取过程损害了I2V模型的一致性保持能力, 2)I2V是一个受限的图像条件框架, 如果首帧空间结构和参考图片不同, 妨碍了动作的平滑衔接(如果参考图片的首帧站着, 参考图像的首帧坐着, 衔接就很不自然).
具体看图上面, RefAdapter把LoRa注入到CogVideoX-I2V的MMDiT层, 在训练过程中(后面的表述可能有误, 仅是我的个人理解), 从参考视频中任意帧, 通过填充0保持和参考视频形状一致, 参考视频也要编辑, 把首帧替换成参考图片(论文中说这样的好处是让模型知道将首帧当作生成视频的参考图而不是起始点), 拼接后输入MMDiT.
Frequency感知的动作提取
不懂这里的motion嵌入是怎么做的, 理解起来很费劲, 不懂为什么这里调整注意力权重可以实现准确的动作提取,
下面仅个人理解, 有一个大前提, 及时没有RefAdapter和Frequency-aware Embedding, 也是可以正常训练的, 我们加入RA, 可以保留空间信息, 也就是人物细节, 我们加入Frequency-aware Embedding时, 保留了action信息, 我理解这里图中的C应该类似<attention is all you need>里的位置嵌入, 做一个求和, 在低时间步减小权重, 在高时间步增加权重, 读到后面发现全文论证了我的猜测.
训练和推理管道
训练阶段RA和FAE单独训练, 在推理阶段, 低时间步专注生成人物主体细节, 高时间步专注动作细节
实验
数据集: 使用包含 25 个动作类别和 10 个目标图像的视频-图像对数据集进行评估.
对比方法: 与基于预定义信号的方法和全局运动定制方法进行比较.
定量评估: 使用文本相似度, 运动保真度, 时间一致性和外观一致性等指标进行评估.
定性评估: 通过视觉比较评估方法的效果.
消融研究: 分析 RefAdapter 和 FAE 对模型性能的影响.
讨论
"our method requires optimization for each reference video.", 我可以理解为参考图片可以随便选, 但是参考视频必须是我提供的, 不然效果不好, 应该属于FAE的局限性, 这种方法还是没能从参考视频很好的捕捉到动作模式.
感受
关键信息: 1)LoRA很火, 读到好几篇用LoRA做微调的文章了, 2)diffusion去噪过程前期关注细节, 后期关注动作, 3)训练RefAdapter时处理首帧的方法.
读到测试集是他们自己做的这里就感觉不对劲, 读到最后一句"our method requires optimization for each reference video."崩不住了, 有一种用测试集微调模型后测试的美感.
还有一点模型的输入里有text(文中硬是一句也没提), 这其实大大的限制了应用场景, 评价是没有关注价值.
值得学习的是它的故事讲得很完美, 卖点很突出, 全文一直在围绕这个卖点, 不得不承认如果我是审稿人也会打高分.