近日,中国研究团队成功创建了“Infinity-MM”数据集,同时训练出了性能卓越的小型新模型“Aquila-VL-2B”。
这一举措标志着开放源代码模型在AI研究中逐渐赶超传统闭源系统的趋势,尤其在合成训练数据的利用方面展现出良好前景。
数据集“Infinity-MM”包含1000万条图像描述和2440万条视觉指令数据。
新模型Aquila-VL-2B在多个基准测试中表现优异,打破了同类模型的记录。
合成数据的使用显著提升了模型性能,研究团队决定向社区开放数据集和模型。
近日,中国研究团队成功创建了“Infinity-MM”数据集,同时训练出了性能卓越的小型新模型“Aquila-VL-2B”。
这一举措标志着开放源代码模型在AI研究中逐渐赶超传统闭源系统的趋势,尤其在合成训练数据的利用方面展现出良好前景。
数据集“Infinity-MM”包含1000万条图像描述和2440万条视觉指令数据。
新模型Aquila-VL-2B在多个基准测试中表现优异,打破了同类模型的记录。
合成数据的使用显著提升了模型性能,研究团队决定向社区开放数据集和模型。