海德堡大学最近发布了一个名为ConTorlNetXS的优化版本的ControlNet模型,该模型在图像生成方面的性能得到了极大提升。这一项目的研究重点是控制基于稳定扩散模型的图像生成过程,通过对ControlNet的大小和架构进行优化,取得了令人瞩目的成果。
ConTorlNetXS的参数仅为原始模型的1%,但在推理和训练时间上提高了两倍,同时生成的图片质量更高,控制更加精准。研究人员将这一新架构命名为ControlNet-XS,并展示了其比原始ControlNet表现更好的结果,尤其在FID分数方面表现出色。
原始的ControlNet是基于StableDiffusion基础模型中U-Net编码器的副本,接收与基础模型相同的输入,并附加一个类似边缘图的引导信号。在训练过程中,ControlNet的中间输出添加到基础模型的解码器层的输入中。然而,这种方法存在概念上的问题,导致ControlNet过于庞大,并且生成图像的质量明显降低。
为了解决这一问题,研究人员对ControlNet进行了优化,将连接从编码器基础模型添加到控制编码器,使得纠正可以更快地适应基础模型的生成过程。然而,这一方法并未完全消除延迟,因为基础模型的编码器仍然没有受到引导。因此,他们直接将额外的连接添加到基础模型的编码器中,直接影响整个生成过程,最终实现了ControlNet-XS的优化版本。
研究人员对三种ControlNet-XS的变体(A、B、C)相对于原始的ControlNet在COCO2017的验证集上的FID分数表现进行了评估。结果显示,所有的变体都取得了显著的改进,同时只使用了原始ControlNet参数的一小部分。这一成果将为图像生成领域带来重大影响,有望推动该领域的进一步发展和应用。