多模态大模型MMICL霸榜支持文本图像视频输入_科技魔方-中文AI大模型门户网站

　　最近，北京交通大学等机构联合推出了新多模态大模型MMICL。它支持文本、图像、视频三种模态的混合输入，在多项多模态能力评测中表现抢眼。

　　MMICL在MMBench和MME两项多模态测评中均获得不俗的成绩。它采用Flan-T5XXL作为基础模型，通过两阶段训练完成。第一阶段是预训练，使用大规模数据集;第二阶段是多模态上下文微调，使用自建包含丰富多模态样本的MIC数据集。这种训练方式让MMICL既具备强大的语义理解能力，又特别适合处理复杂的多模态输入。

　　MMICL使用了VCR、VQAv2、GQA、COCO、NLVR2等多种数据源。研究人员将这些数据转换成了少样本式数据，存储在jsonl文件中，形成了带有0到少样本的多指令式数据。研究使用python数据预处理脚本，将数据转换为后续训练的原始化数据。数据格式支持交错的图像文字输入，相关图像输入以及语境示范输入。

　　MMICL最大的特色在于同时接受文本和图像的交错输入，就像微信聊天一样自然。它可以分析两张图像的关系，也可以从视频中提取时空信息。如果给它一些示例，MMICL还能进行“现学现卖”，对未知知识进行类比和推理。研究团队表示，MMICL成功缓解了视觉语言模型中的语言偏见问题，避免在大量文本输入时忽视视觉信息。

　　MMICL的核心功能包括:

　　1)理解并推理多幅图像之间的关系;

　　2)人工构建的语境训练数据，支持语境学习;

　　3)状态最先进的多模态建模能力。

　　目前，MMICL已开源两个版本，分别基于FlanT5XL和Vicuna模型，可满足商用和科研需求。该模型支持多种互动方式，开发者可以通过GitHub获取代码和模型进行试用。诸如图像分类、视频理解等多模态任务，都可以基于MMICL得到进一步提升。

　　总体来说，MMICL是新兴的多模态预训练模型中的佼佼者。它具备处理复杂多模态输入的能力，支持各种多模态任务精调。MMICL的开源发布为多模态AI的研究和应用提供了新的选择。随着其性能和适用场景的不断优化，MMICL有望成为多模态领域的新宠。