科技魔方

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

更多场景

2024年07月17日

  近期,智源研究院联合大连理工大学、北京大学等高校推出了新一代无编码器的视觉语言模型EVE,通过精细化训练策略和额外的视觉监督,解决了多模态大模型训练分离导致的视觉归纳偏置问题,表现优异于基于编码器的主流多模态方法。EVE展示了无编码器原生视觉语言模型的潜力,为多模态模型的发展提供了新思路。

  EVE采用无编码器架构,处理任意图像长宽比,表现优异于同类型模型。

  EVE使用公开数据预训练,训练时间短,数据和训练代价低。

  EVE提供透明高效的探索路径,在多个视觉-语言基准测试中表现优异。

+1

来源:科技魔方

延展资讯