科技魔方

Rerender A Video源代码放出!解决AI视频闪烁问题

大模型

2023年09月26日

  Rerender A Video是一项令人印象深刻的技术成果,它旨在将大型文本到图像扩散模型的能力扩展到视频领域。该项目提出了一种零训练的文本引导视频到视频翻译框架,能够在视频帧之间确保时间一致性,这一直是一个巨大的挑战。

  它包括两个主要部分:关键帧翻译和完整视频翻译。第一部分使用适应的扩散模型生成关键帧,通过应用层次交叉帧约束来强化形状、纹理和颜色的连贯性。

  第二部分则通过时间感知的补丁匹配和帧混合将关键帧传播到其他帧。这个框架以较低的成本实现了全局样式和局部纹理的时间一致性,而无需重新训练或优化。

  它还与现有的图像扩散技术兼容,可以利用它们,例如使用LoRA自定义特定主题,或者使用ControlNet引入额外的空间引导。大量的实验结果证明了该框架在渲染高质量和时间一致性视频方面的有效性。

  核心功能:

  时间一致性: 通过交叉帧约束实现低级别时间一致性,确保生成的视频帧之间的平滑过渡。

  零训练: 无需对模型进行训练或微调,使其适用于各种视频翻译任务。

  灵活性: 与现成的模型(如ControlNet、LoRA等)兼容,可以根据需求自定义翻译过程。

  WebUI界面: 提供了用户友好的Web界面,使用户可以轻松上传视频、输入提示、选择种子等,并运行不同的翻译步骤。

  命令行支持: 提供了灵活的命令行脚本,允许用户通过命令行参数控制翻译过程。

+1

来源:站长之家

延展资讯