Meta日前发布了一种可以识别图像中的哪个像素属于哪个对象的全新人工智能工具Segment Anything Model(SAM),而团队表示SAM最终可以识别通过AR眼镜看到的日常对象,并根据用户的注视点来交互显示物品的相关信息。
SAM可以执行计算机视觉观察和理解周围世界过程的基础任务segment。根据研究人员的说法,SAM能够理解对象是什么的一般概念,并可以为任何图像或视频中的任何对象生成掩码,甚至包括训练中没有遇到的对象和图像类型。换句话说,它可以猜测不同的对象是什么。
SAM不需要你展示数百种不同的折叠纸巾就可以区分桌子上的纸巾。SAM可以为你选择的任何对象生成一个掩码,并相应地进行segment区分。根据研究人员的说法,SAM同时可以接受文本提示。
除了发布这个人工智能模型外,Meta已经将训练数据集提供给第三方研究人员。
尽管Meta可以轻松通过网络找到大量图像和视频,但高质量的segment数据要小众得多。为了帮助SAM,Meta开发了一个新的训练数据库:Segment Anything 1-Billion mask dataset(SA-1B)。它包含约1100万张授权图像和超过11亿个高质量和多样性的segment掩码。官方表示,Segment Anything 1-Billion mask dataset(SA-1B)是有史以来最大的分割数据集。
值得一提的是,Meta表示SAM最终可以识别通过AR眼镜看到的日常对象,并根据用户的注视点来交互显示物品的相关信息。