苹果的「Ferret」是一种新的开源多模态机器学习模型

　　苹果公司与康奈尔大学的研究人员于 10 月份悄然推出了一款名为首次在 Github 上发布">「Ferret」的开源多模态大型语言模型(LLM)。这一研究成果首次在 Github 上发布，但并未引起太多关注，没有进行任何宣布或庆祝。Ferret的代码与 Ferret-Bench 一同于 10 月 30 日发布，而检查点版本则于 12 月 14 日推出。

　　据 VentureBeat 报道，虽然起初并未受到太多关注，但在周六，这一发布对AI研究人员来说变得更为重要。一家医疗 AI 非营利组织的负责人 Bart De Witte 在 X 平台上发帖称这一「错过」的发布「证明了苹果对有影响力的 AI 研究的承诺」。

　　Ferret 的开源发布采用非商业许可，因此在当前状态下不能商业化。然而，它总有可能以某种方式被用于未来的苹果产品或服务中。

　　苹果 AI/ML 研究科学家 Zhe Gan 在 10 月的一条推文中解释了 Ferret 的用途，即作为一个可以「在图像中的任何位置、以任何精度、使用任何形状的区域进行参考和定位」的系统。简而言之，该模型可以检查在图像上绘制的区域，确定其中对用户查询有用的元素，识别它，并在检测到的元素周围绘制边界框。然后，它可以将识别出的元素作为查询的一部分，然后以典型的方式做出响应。

　　例如，高亮显示图像中的动物并询问 LLM 动物是什么，它可以确定动物的物种，以及用户指的是一群动物中的个体。然后，它可以使用图像中检测到的其他项目的上下文提供进一步的响应。

　　这一发布对研究人员来说很重要，因为它表明苹果愿意在 AI 工作上更加开放，而不是采取其通常的保密立场。

　　苹果面临的另一个问题是基础设施，虽然它正在努力增加 AI 服务器的数量，但目前可能没有足够的规模来与例如 ChatGPT 等进行竞争。尽管苹果可以与其他公司合作扩大其能力，但另一种方法是像它刚刚做的那样，即发布一个开源模型。

　　Github 发布中的一个有趣元素是，Reddit 的 r/Apple 注意到 Ferret 是「在拥有 80GB 内存的 8 个 A100 GPU 上训练的」。考虑到苹果与 Nvidia GPU 采用的历史，这被视为对 GPU 制造商的罕见认可。

苹果的「Ferret」是一种新的开源多模态机器学习模型

延展资讯