智源研究院发布了首个全能多模态预训练模型 Emu 的开源版本。Emu 在多项性能指标上超越了 DeepMind 的 Flamingo 模型,具备统一多模态学习框架和视频数据的大量采用的能力。
Emu 可以完成任意图生文和文生图的多模态任务,包括图像描述、图像问答、视频问答、文图生成、图像融合和多模态对话等。Emu 还具有强大的少样本上下文学习能力,可以根据给定任务的几个示例样本进行上下文学习。
Emu 在8个基准测试中展现出极强的零样本性能,具有强大的泛化能力。模型还具有世界知识丰富、视频理解能力强、图像融合和上下文图像生成等技术亮点。
Emu首次大量采用视频数据,并创新性建立了统一多模态学习框架,将不同来源的多模态交错数据进行自回归建模,同时首次采用了海量视频作为图文交错序列数据。
模型训练方面,Emu 使用自回归方式预测多模态序列中的下一个元素作为统一的学习目标。总之,Emu 是一款功能强大的全能多模态预训练模型,具备广泛的应用前景。