谷歌 Fluid 颠覆共识：两大因素被发现，AI 文生图领域自回归模型超越扩散模型

　　科技媒体 The Decoder 昨日(10 月 22 日)发布博文，报道称谷歌 DeepMind 团队携手麻省理工学院(MIT)，推出了全新的“Fluid”模型，在规模达到 105 亿参数时候，能取得最佳的文生图效果。

　　目前在文生图领域，行业内的一个共识是自回归模型(Autoregressive Models)不如扩散模型(Diffusion Models)。

　　IT之家简要介绍下这两种模型：

　　扩散模型 (Diffusion Models):这是一种最近非常热门的内容生成技术，它模拟的是信号从噪声中逐渐恢复的过程。扩散模型通过迭代地减少随机噪声来生成高质量的图像、文本和其他形式的数据。比如应用于图像生成领域中的 DDPM(离散扩散概率模型)及其变体就有很高的关注度。

　　自回归模型 (Autoregressive Models):自回归模型预测序列中的下一个元素时，依赖于前面的元素。在文本生成领域，像基于 Decoder-only 的 GPT 系列(如 GPT-3、GPT-4)就是典型的自回归模型，它们逐词预测下一个词，从而生成连贯的文本段落。

　　谷歌 DeepMind 和 MIT 团队通过深入研究，发现了使用连续 tokens(非离散 tokens)和采用随机生成顺序(非固定顺序)两个关键设计因素，显著提高了自回归模型的性能和可扩展性。

　　团队表示在离散 tokens 为每个图像区域分配一个来自有限词汇的代码，这会导致信息丢失，而连续 tokens 可以更精确地图像信息存储，减少信息丢失。这让模型能够更好地重建图像，提高视觉质量。

　　此外大多数自回归模型以固定顺序生成图像，而 Fluid 采用随机生成顺序，让模型能够在每一步预测任意位置的多个像素，这种方法在理解整体图像结构时表现更为出色。

　　Fluid 模型结合了连续标记和随机生成顺序后，当其规模扩大到 105 亿参数时，Fluid 在重要基准测试中超越了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。

　　与 Parti 相比，Fluid 显示出显著的改进：拥有 200 亿参数的 Parti 在 MS-COCO 上达到了 7.23 的 FID 分数，而仅有 3.69 亿参数的小型 Fluid 模型却达到了相同的分数。