Pixtral 12B 发布：Mistral 首款多模态 AI 模型，120 亿参数、24GB 大小

　　科技媒体 TechCrunch 昨日(9 月 11 日)报道，法国 AI 初创公司 Mistral 发布 Pixtral 12B，是该公司首款能够同时处理图像和文本的多模态 AI大语音模型。

　　Pixtral 12B 模型拥有 120 亿参数，大小约为 24GB，参数大致对应于模型的解题能力，拥有更多参数的模型通常比参数较少的模型表现更优。

　　Pixtral 12B 模型基于文本模型 Nemo 12B 构建，能够回答关于任意数量、任意尺寸图像的问题。

　　与 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o 等其他多模态模型类似，Pixtral 12B 理论上应能执行诸如为图像添加描述和统计照片中物体数量等任务。

　　用户可以下载、微调 Pixtral 12B 模型，并能依据 Apache 2.0 许可证使用。

　　Mistral 开发者关系负责人 Sophia Yang 在 X 平台的一篇帖子中表示，Pixtral 12B 很快将在 Mistral 的聊天机器人和 API 服务平台 Le Chat 及 Le Plateforme 上开放测试。

　　IT之家附上相关跑分情况如下：

　　参考

　　Mistral releases Pixtral 12B, its first multimodal model

　　Hugging Face

　　GitHub