一直以来,基于文本的图像生成技术一直备受关注,因为它能够根据文字描述创建逼真的图像。这些模型利用复杂的算法解读文本并将其转化为视觉内容,模拟了人类独有的创造力和理解能力。这项技术在各个领域都具有巨大的潜力,从平面设计到虚拟现实,都可以创建与文本输入相符的复杂图像。
在这一领域中的一个关键挑战是微调这些模型以实现对生成图像的精确控制。模型在保持高保真度图像生成和对文本提示的细腻解释之间往往难以平衡。确保这些模型能够准确遵循文本指令并保持其创造性完整性是至关重要的,特别是在需要特定图像特征或风格的应用中。目前,引导这些模型通常涉及调整网络中的神经元权重,可以通过小学习率更新或通过重新参数化神经元权重来实现。然而,这些技术往往需要在保留模型预训练生成性能方面进行改进。
来自包括智能系统 MPI、剑桥大学、图宾根大学、蒙特利尔大学、博世人工智能中心和阿兰图灵研究所在内的多个机构的研究人员介绍了正交微调(OFT)方法。
该方法显著提高了对基于文本的图像生成模型的控制能力。OFT 采用正交变换方法,着重于保持超球能量(神经元之间关系结构的度量)。这种方法确保了模型的语义生成能力得到保留,从而实现更准确和稳定的基于文本提示的图像生成。
OFT 方法可以从以下四个方向进行全面审视,以对所提出的方法有一个整体的了解:
1. 采用 OFT 进行简化微调:OFT 使用正交变换来适应大规模基于文本的图像生成模型,而不改变其超球能量。这种方法保持了模型的语义生成能力。
2. 提高生成质量和效率:OFT 应用于两个具体任务:根据几张参考图片和文本提示生成特定主题的图片,以及可控生成,即模型接收额外的控制信号。
3. 实际应用和广泛影响:OFT 可以用于艺术家和平面设计师根据文字描述创建复杂的图像和艺术作品。这可以大大加快创作过程,让艺术家在较短时间内探索更多的创意。此外,OFT 还可以为广告和营销提供基于特定文本输入的独特定制视觉内容,快速原型化广告概念和不同主题或营销信息的视觉内容。
4. 开放挑战和未来方向:解决 OFT 在可扩展性方面的局限性,特别是与 Cayley 参数化涉及的矩阵求逆操作的计算效率相关的问题。研究如何结合多个 OFT 微调任务产生的正交矩阵,同时保留所有下游任务的知识。改进参数效率的方法,以更少的偏见和更有效的方式来提高参数效率,仍然是一个重大挑战。
正交微调方法极大地推动了基于 AI 的图像生成。通过有效解决微调文本到图像模型的挑战,OFT 提供了一种更可控、稳定和高效的方法。这一突破为需要准确从文本生成图像的应用开辟了新的可能性,标志着 AI 创造力和视觉表现的新时代的到来。