Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with Image Diffusion Model
卖点: 以T2I为基础模型, 增加pose控制信号, 生成无缝时间连贯, IP保持, 高质量的人类motion视频. 方法: 对了空间一致性, 把文本指导的角色知识引入模型, 加入了GPT的见解; 为了保护背景连续性, 融入了图像分割和图像修复的见解; 为了时间一致性, 用自回归的方式, 前一帧指导后一帧的生成.
介绍
电子世界对人类动作视频有强烈的需求. 1)简单以text作为输出;2)以text和pose作为输出, 仅靠text控制人物形象和背景. 指出当前问题, 由T2I修改和微调后的T2V生成质量差(破损的手和脚), 帧间不对齐.
提出Dancing Avatar, 以T2I为基础模型, 而不是T2V, 输入包括text和pose, 用文本描述指导人物形象和背景, 视频帧一步步生成, 两个关键障碍: 1)维护统一的形象, 引入帧内对齐模块, 通过text驱动, 集成了T2I和ChatGPT的见解; 2)帧间背景一致性, 引入背景对齐管道, 利用帧内对齐模块的知识, segment anything和图片分割技术. 另外, 引入帧间对齐模块增强邻帧的细节一致性, 自回归的方式, 当前图片的生成受前一帧的影响.
相关工作
可控图片和视频生成. 可控图片生成, 从开始的文本控制生成到允许微调的控制. 可控视频生成, 通过T2V扩散模型进行视频编辑.
人类动作视频生成. 早期是LSTM和GAN的方法进行运动转移, 这种方法需要对特定角色进行微调, 最近是T2V扩散模型, 更灵活, 可以通过文本指示自定义角色和背景.
方法
概览
(表述有误, 直接看后面的各小节)
这篇的流程只看个图片就能看出7788, 基础模型是T2I扩散模型, 在生成每一帧时text提示词一致, pose信号不同, 通过帧内对齐模块, 帧间对齐模块, 背景对齐管道维护人物和背景的帧间一致性.
首先是帧内对齐模块, 用户提供粗糙的提示词->GPT生成精细化提示词->和T2I合作确保衣服和面部的统一.
接着是背景对齐管道, (后面的表述不准确, 看背景对齐小节)Dancing Avatar为人物生成背景, 紧接着图像分割和图像修复, 其次根据不同的pose生成不同的图片(有误).
帧间对齐通过上一步提供的mask和background实现, 其实就是前两个模块的一个综合(有误).
帧间对齐模块
帧间保持人物一致性很困难(脸部, 衣服), 他们通过GPT生成详细精细的提示词去指导生成, 分别生成脸部和衣服的提示词, 用T2I生成2组图片(脸部, 衣服).
接着用这些图片去训练衣服对齐模块和面部对齐模块(LoRA), 然后和T2I合并, 保证这份提示词每次都生成相同的图片, 这应该就是根据零样本微调.
背景对齐
在首次的步骤, 根据背景提示词和其他提示词一起, 还有pose信息, 生成首帧, 接着用segment anything获得人物的掩码, 利用掩码用图像修复(inplain)技术获得无人像的背景图片.
在后面的步骤, 重复上一步(pose变了), 但是只需要人物的掩码.
有了背景和掩码, 在执行修复就可以得到背景统一, 人物形象统一(经过了帧内对齐)的图像.
帧间对齐
自回归的生成人类动作帧序列.
将前一帧作为生成当前帧的一个输入, 也是LoRA, 原模型冰冻, 增加了帧间对齐模块, 输入是前一帧, 预测下一帧.
实验
评估指标: 使用BRISQUE, NIQE, MSE, CLIP等指标评估视频质量, 输入对齐和时间一致性.
与现有方法的定性比较: 与Follow Your Pose和ControlVideo进行视觉比较, 展示Dancing Avatar在视频质量, 人体和背景保真度方面的优势.
与现有方法的定量比较: 在视频质量, 输入对齐和时间一致性方面, Dancing Avatar优于Follow Your Pose和ControlVideo.
消融研究: 验证内帧对齐, 帧间对齐和背景对齐模块对视频一致性和质量的贡献.
感受
LoRA到底是何方神圣, 只在YouTube看过一个快餐视频, 下一篇去看原论文.
回到这篇论文, 开头没有效果图, overview部分没有深入到模型内部结构, 介绍"帧间对齐模块"和"背景对齐"主要是工程性内容还能理解, 介绍帧间对齐放的图(C)更像是对"背景对齐"的一个补充, 概览部分没讲清楚, 往下读才豁然开朗.
总结一下它的思路吧, 两个老问题空间一致性和时间一致性. 全文用的都是LoRa技术, 空间一致性又分为手, 衣服, 背景这些难点, 它的前提是, 只要我的text prompt够精细, 再加上针对性的微调, 我能让模型每次输入这个提示词, 都能生成一致的形象, 这就解决了人物一致性, 对于背景一致性, 就先生成背景, 预生成提取出掩码, 根据背景和掩码做背景修复就能做到背景一致, 人物形象也因为帧内对齐统一了; 对于时间一致性, LoRA专门对临近帧进行优化.
其实工作量不小, 效果也不错, 就是背景对齐那生成了两次, 还有获得掩码的步骤, 逐帧生成的机制, 估计推理时间不会少.