LaVi-Bridge项目是一个无需训练将不同的语言模型和生成视觉模型结合起来,以实现文本到图像的生成的项目。
LaVi-Bridge是一个灵活的框架,它允许将不同的预训练语言模型和生成视觉模型集成到文本到图像生成的过程中。通过使用LoRA(Low-rank Adaptation)和适配器,LaVi-Bridge提供了一种灵活且即插即用的方法,无需修改原始模型的权重。这个框架兼容多种语言模型和生成视觉模型,能够适应不同的结构。
LaVi-Bridge作为文本到图像扩散模型的桥梁,能够连接各种预训练的语言模型和生成视觉模型。利用LoRA和适配器,避免了修改原始模型权重的需要,使得LaVi-Bridge更加灵活,并且相比于训练整个扩散模型,需要的计算资源相对较少。
在短提示、长提示和组合提示下的文本对齐和图像质量指标上进行了广泛的评估,并通过大量可视化实验验证了LaVi-Bridge的有效性。