苹果公司与康奈尔大学的研究人员于 10 月份悄然推出了一款名为首次在 Github 上发布">「Ferret」的开源多模态大型语言模型(LLM)。这一研究成果首次在 Github 上发布,但并未引起太多关注,没有进行任何宣布或庆祝。Ferret的代码与 Ferret-Bench 一同于 10 月 30 日发布,而检查点版本则于 12 月 14 日推出。
据 VentureBeat 报道,虽然起初并未受到太多关注,但在周六,这一发布对AI研究人员来说变得更为重要。一家医疗 AI 非营利组织的负责人 Bart De Witte 在 X 平台上发帖称这一「错过」的发布「证明了苹果对有影响力的 AI 研究的承诺」。
Ferret 的开源发布采用非商业许可,因此在当前状态下不能商业化。然而,它总有可能以某种方式被用于未来的苹果产品或服务中。
苹果 AI/ML 研究科学家 Zhe Gan 在 10 月的一条推文中解释了 Ferret 的用途,即作为一个可以「在图像中的任何位置、以任何精度、使用任何形状的区域进行参考和定位」的系统。简而言之,该模型可以检查在图像上绘制的区域,确定其中对用户查询有用的元素,识别它,并在检测到的元素周围绘制边界框。然后,它可以将识别出的元素作为查询的一部分,然后以典型的方式做出响应。
例如,高亮显示图像中的动物并询问 LLM 动物是什么,它可以确定动物的物种,以及用户指的是一群动物中的个体。然后,它可以使用图像中检测到的其他项目的上下文提供进一步的响应。
这一发布对研究人员来说很重要,因为它表明苹果愿意在 AI 工作上更加开放,而不是采取其通常的保密立场。
苹果面临的另一个问题是基础设施,虽然它正在努力增加 AI 服务器的数量,但目前可能没有足够的规模来与例如 ChatGPT 等进行竞争。尽管苹果可以与其他公司合作扩大其能力,但另一种方法是像它刚刚做的那样,即发布一个开源模型。
Github 发布中的一个有趣元素是,Reddit 的 r/Apple 注意到 Ferret 是「在拥有 80GB 内存的 8 个 A100 GPU 上训练的」。考虑到苹果与 Nvidia GPU 采用的历史,这被视为对 GPU 制造商的罕见认可。