PALP是一种用于文本到图像生成的个性化方法。该方法通过使用得分采样来保持模型与目标提示的对齐,从而提高文本对齐度,并能够生成复杂和精细的图像。与传统的文本到图像模型相比,PALP 能够实现更高程度的个性化,同时保持与提示的对齐度。这一方法的关键在于利用得分采样将模型的预测结果转向目标提示的方向,例如 "一只猫的草图"。通过这种方式,PALP 能够生成包含各种复杂和精细提示的图像。
PALP 方法通过对预训练模型进行简单的重构损失微调来实现个性化。目前,已经有一些个性化方法,如 DreamBooth-LoRA 和 TextualInversion,可以用于重构损失微调。但是,PALP 并不限制个性化方法的选择,其他个性化方法也可以使用。通过个性化微调,PALP 能够根据用户的需求生成个性化的图像。
PALP 方法在处理复杂提示时表现出色,这些提示包括风格、氛围、地点等多个要素。对于每个主题,我们展示了训练集中的一个示例、条件文本以及与 Dreambooth 和 Textual-Inversion、Custom-Diffusion、NeTI、P + 基线的比较结果。这些比较结果定量和定性地展示了 PALP 方法的优势。
除了个性化生成,PALP 还支持基于艺术作品的灵感生成。通过确保与目标提示的对齐,PALP 可以生成受单幅艺术图片启发的场景,例如 "一幅 [玩具 / 猫] 的油画"。通过与目标提示的对齐,PALP 能够生成与艺术作品相似的图像。
此外,PALP 还能够从单个参考图像实现高保真度和与提示对齐。通过对八个随机噪声样本进行个性化生成,PALP 展示了在单个参考图像的情况下的优秀表现。
PALP 还支持多主题的个性化生成。我们展示了针对猫和玩具主题的样本结果,并提供了生成图像下方的条件提示。通过这种方式,PALP 可以根据不同的主题生成对应的图像。