My App

VPO: Aligning Text-to-Video Generation Models with Prompt Optimization

针对text-to-video任务的提示词优化, 三个核心的原则: 无害, 准确, 有用. 在技术细节上, 采用两步优化, 1)构建有监督微调数据集, 2)文本层次和视频层次的反馈.

介绍

当前最优秀的text-to-video模型都是在有详细的prompt的数据集上训练的, 但是真实世界的用户输入过于简单, 导致生成的视频质量一般.

当前主流用LLM优化提示词, 但是1)安全担忧2)不准确的提炼3)忽略最终视频的质量, 再次基础上提出无害, 准确, 有用的原则.

接着介绍了框架VPO, 1)在构建数据集阶段, 用LLM构建, 再根据无害, 准确, 有用三个原则进行优化.2)在微调阶段, Direct Preference Optimization (DPO)策略.

讲实验结果, 在多个模型上测试, 超过了diffusion-DPO, 有RLHF(reinforcement learning from human feedback)的潜力.

方法

VPO-overview

principle-based SFT

  1. query curation. 它们的原始数据集来自VidProM dataset, 100k条真实的text-to-video query, 1)基于关键字, 特别字符和query长度初筛. 2)筛选掉相似的query. 3)给不安全的query打上标签. 后面两步用LLM完成的. 最终数据集是18k常规的数据, 2k条和安全相关的数据, 10k条用于SFT, 10k条用于DPO.
  2. 提示词构建. 用LLM生成query对应的优化后提示词, 保留上下文建议.
  3. 根据3原则精炼. 用LLM评价当前promot的问题, 基于批判refine提示词.
  4. 训练 model. 看后面它们有一个基础模型, 根据第三步处理后的query-prompt pairs对基础模型进行微调.

Multi-Feedback Preference Optimization

text level的反馈确保与用户的意图对齐确保安全, video level的反馈确保生成高质量的提示词指导视频生成.

  1. 数据采样, 对于每个query, 用上一步的SFT model生成K个promot.
  2. text-level的数据构建. 同样的3原则,对齐用户意图, 保证安全, 用LLM去做feedback. 没有通过的promot会通过refine修改.
  3. video-level的数据构建. 这个用了一个优秀的视频建立模型VisionReward去做feedback, 每个生成的视频都会有一个score, 指导模型训练.

实验

实验设置

骨干模型是 CogVideoXOpen-Sora 1.2. 对于CogVideoX, 使用官方基于GLM-4的提示词优化, GPT4o上下文提示词方法作为基准. 对于Open-Sora 1.2, GPT4o重写方式作为基准.

VBench和MonetBench用于评估text-to-video的质量, GPT4o用于评估提示词对齐, T2VSafetyBench评估提示词安全问题.

接着是text-to-video质量评估, text-level对齐, 安全评估的结果

与RLHF的比较

没有看出内容和这个小标题的关联, 结果展示了提示词优化对于提高视频生成质量对齐用户意图的重要性, VPO和diffusion DPO一起使用可以带来额外的收益.

可迭代的优化

在前三次迭代时表现提升后趋于稳定--多次迭代不会造成表现下降.

跨模型的能力

迁移到其他text-to-video模型依然获得很好的表现提升.

On this page