EPFL联合苹果开源人工智能框架4M_科技魔方-中文AI大模型门户网站

　　瑞士联邦理工学院(EPFL)与苹果的研究人员合作开发的4M框架在人工智能领域引起了广泛关注。该框架的核心目标是训练多模态基础模型，能够跨足多个模态和任务，以提高视觉处理的可伸缩性和多样性。在自然语言处理领域，大型语言模型(LLMs)的训练已经变得流行，但在视觉领域，仍然需要创建同样灵活和可扩展的模型。为了克服这些障碍，研究团队提出了一种训练单一Transformer编码器-解码器的策略，该策略使用了一种名为“Massively Multimodal Masked Modeling”(4M)的方法。

　　该方法通过结合遮蔽建模和多模态学习的优点，实现了强大的跨模态预测编码能力和共享场景表示。4M通过使用模态特定的分词器，能够将不同格式的输入转换成集合或序列的标记，从而使单一Transformer可以用于文本、边界框、图片或神经网络特征等各种模态的训练。这种标记化的方法不仅提高了模型的兼容性和可伸缩性，还避免了使用任务特定的编码器和头部，使得Transformer能够在任何模态下保持完全参数共享。

　　值得注意的是，4M框架在训练效率方面也取得了成功。它通过利用输入和目标遮蔽，即从所有模态中随机选择少量标记作为模型输入和另一组作为目标，实现了对大量模态的高效训练目标。这种策略在防止计算成本随模态数量增加而急剧增加的同时，还允许在不同和大规模数据集上进行训练，而无需多模态/多任务注释。

　　总的来说，4M框架通过使用多模态遮蔽建模目标，实现了可控生成模型的训练，这使得模型能够根据任何模态进行条件化。这为用户意图的多样表达和各种多模态编辑任务提供了可能。通过对4M框架性能的深入分析，研究团队展示了其在许多视觉任务和未来发展中的巨大潜力。这一研究不仅对于提高视觉处理模型的灵活性和性能至关重要，也为人工智能领域的未来发展提供了有益的启示。

EPFL联合苹果开源人工智能框架4M

延展资讯