来自中国科学院自动化研究所、腾讯公司和香港中文大学的研究人士提出了一种名为 Simple Diffusion Adapter (SimDA) 的方法,用于实现高效的文本到视频生成。传统的文本到视频技术发展还不够成熟,而 SimDA 方法通过只 fine-tune 部分参数,将 T2I 模型转化为 T2V 模型,实现了高效的视频生成。
SimDA 还设计了轻量级的空间和时间适配器,以进行迁移学习,并使用新的潜在偏移注意力(LSA)来实现时间上的一致性。
SimDA 不仅可以在野外生成文本到视频,还可以在短短2分钟的调整时间内进行一次性视频编辑。
此外,作者还训练了一个视频超分辨率模型,可以生成高清(1024x1024)视频。SimDA 方法最大的优点是最小化了训练工作量,并提供了很少的可调参数,使得模型适应更加容易。
总的来说,SimDA 方法在文本到视频生成方面取得了高效和优化的效果,为实现高质量视频生成提供了一种新的途径。