科技魔方

苹果的 “多模态炼丹炉” 又升级!MM1.5增强文本密集、多图理解

多模态

2024年10月14日

  苹果公司最近为其多模态人工智能模型MM1推出了重大更新,将其升级为MM1.5版本。

  这次升级不仅仅是简单的版本号变更,而是全方位的能力提升,使得模型在各个领域都展现出了更强大的性能。

  MM1.5的核心升级在于其创新的数据处理方法,包括高清晰度的OCR数据和合成图像描述的使用,以及优化的视觉指令微调数据混合。

  MM1.5采用以数据为中心的训练方法,优化了训练数据集,在文字识别、图像理解和执行视觉指令等方面表现显著提升。

  MM1.5涵盖了从10亿到300亿参数的多个版本,包括密集型和专家混合(MoE)变体,即使是较小规模的模型也能达到令人印象深刻的性能水平。

  MM1.5的能力提升主要体现在文本密集型图像理解、视觉指代和定位、多图像推理、视频理解以及移动UI理解等方面,拓展了应用场景。

+1

来源:科技魔方

延展资讯