近期,智源研究院联合大连理工大学、北京大学等高校推出了新一代无编码器的视觉语言模型EVE,通过精细化训练策略和额外的视觉监督,解决了多模态大模型训练分离导致的视觉归纳偏置问题,表现优异于基于编码器的主流多模态方法。EVE展示了无编码器原生视觉语言模型的潜力,为多模态模型的发展提供了新思路。
EVE采用无编码器架构,处理任意图像长宽比,表现优异于同类型模型。
EVE使用公开数据预训练,训练时间短,数据和训练代价低。
EVE提供透明高效的探索路径,在多个视觉-语言基准测试中表现优异。
近期,智源研究院联合大连理工大学、北京大学等高校推出了新一代无编码器的视觉语言模型EVE,通过精细化训练策略和额外的视觉监督,解决了多模态大模型训练分离导致的视觉归纳偏置问题,表现优异于基于编码器的主流多模态方法。EVE展示了无编码器原生视觉语言模型的潜力,为多模态模型的发展提供了新思路。
EVE采用无编码器架构,处理任意图像长宽比,表现优异于同类型模型。
EVE使用公开数据预训练,训练时间短,数据和训练代价低。
EVE提供透明高效的探索路径,在多个视觉-语言基准测试中表现优异。