针对text-to-video任务的提示词优化, 三个核心的原则: 无害, 准确, 有用. 在技术细节上, 采用两步优化, 1)构建有监督微调数据集, 2)文本层次和视频层次的反馈.

介绍

当前最优秀的text-to-video模型都是在有详细的prompt的数据集上训练的, 但是真实世界的用户输入过于简单, 导致生成的视频质量一般.

当前主流用LLM优化提示词, 但是1)安全担忧2)不准确的提炼3)忽略最终视频的质量, 再次基础上提出无害, 准确, 有用的原则.

接着介绍了框架VPO, 1)在构建数据集阶段, 用LLM构建, 再根据无害, 准确, 有用三个原则进行优化.2)在微调阶段, Direct Preference Optimization (DPO)策略.

讲实验结果, 在多个模型上测试, 超过了diffusion-DPO, 有RLHF(reinforcement learning from human feedback)的潜力.

方法

VPO-overview

query curation. 它们的原始数据集来自VidProM dataset, 100k条真实的text-to-video query, 1)基于关键字, 特别字符和query长度初筛. 2)筛选掉相似的query. 3)给不安全的query打上标签. 后面两步用LLM完成的. 最终数据集是18k常规的数据, 2k条和安全相关的数据, 10k条用于SFT, 10k条用于DPO.
提示词构建. 用LLM生成query对应的优化后提示词, 保留上下文建议.
根据3原则精炼. 用LLM评价当前promot的问题, 基于批判refine提示词.
训练 model. 看后面它们有一个基础模型, 根据第三步处理后的query-prompt pairs对基础模型进行微调.

text level的反馈确保与用户的意图对齐确保安全, video level的反馈确保生成高质量的提示词指导视频生成.

数据采样, 对于每个query, 用上一步的SFT model生成K个promot.
text-level的数据构建. 同样的3原则,对齐用户意图, 保证安全, 用LLM去做feedback. 没有通过的promot会通过refine修改.
video-level的数据构建. 这个用了一个优秀的视频建立模型VisionReward去做feedback, 每个生成的视频都会有一个score, 指导模型训练.