瑞士联邦理工学院(EPFL)与苹果的研究人员合作开发的4M框架在人工智能领域引起了广泛关注。该框架的核心目标是训练多模态基础模型,能够跨足多个模态和任务,以提高视觉处理的可伸缩性和多样性。在自然语言处理领域,大型语言模型(LLMs)的训练已经变得流行,但在视觉领域,仍然需要创建同样灵活和可扩展的模型。为了克服这些障碍,研究团队提出了一种训练单一Transformer编码器-解码器的策略,该策略使用了一种名为“Massively Multimodal Masked Modeling”(4M)的方法。
该方法通过结合遮蔽建模和多模态学习的优点,实现了强大的跨模态预测编码能力和共享场景表示。4M通过使用模态特定的分词器,能够将不同格式的输入转换成集合或序列的标记,从而使单一Transformer可以用于文本、边界框、图片或神经网络特征等各种模态的训练。这种标记化的方法不仅提高了模型的兼容性和可伸缩性,还避免了使用任务特定的编码器和头部,使得Transformer能够在任何模态下保持完全参数共享。
值得注意的是,4M框架在训练效率方面也取得了成功。它通过利用输入和目标遮蔽,即从所有模态中随机选择少量标记作为模型输入和另一组作为目标,实现了对大量模态的高效训练目标。这种策略在防止计算成本随模态数量增加而急剧增加的同时,还允许在不同和大规模数据集上进行训练,而无需多模态/多任务注释。
总的来说,4M框架通过使用多模态遮蔽建模目标,实现了可控生成模型的训练,这使得模型能够根据任何模态进行条件化。这为用户意图的多样表达和各种多模态编辑任务提供了可能。通过对4M框架性能的深入分析,研究团队展示了其在许多视觉任务和未来发展中的巨大潜力。这一研究不仅对于提高视觉处理模型的灵活性和性能至关重要,也为人工智能领域的未来发展提供了有益的启示。