对于追求减肥或学习一门新语言等高水平目标(复杂的长期目标),人们可能不知道从何入手。另外,每个追求高水平目标的人士可能会根据自己的背景而采取不同的方式。
在另一方面,Meta正在积极探索AR眼镜,并设想了这样一个未来:支持全天候穿戴的AR设备将如同今天的智能手机一样无处不在。这样的AR设备可以捕获关于用户及其情景的信息,并使用所述信息向用户推荐相关行动及其目标选择。
所以在名为《Using Generative AI to Produce Situated Action Recommendations in Augmented Reality for High-level Goals》的研究中,Meta利用微软HoloLens2,并探索了一种使用诸如大型语言模型LLM这样的生成式人工智能模型来推荐相关行动,并将建议置于正确的情景之中。
需要注意的是,这只是初始研究,而团队表示会在未来的论文中发表进一步的研究过程和发现。
如上图所示,团队针对本次研究设计了一个技术原型,以探索使用生成式AI在AR中为高水平目标提供行动建议。例如,当瑜伽垫出现在用户视场时,生成式AI可以提供关于如何进行瑜伽练习和指导的建议,从而帮助用户更好地完成目标。
所述原型在Unity中实现,并油微软HoloLens 2运行。目前,它通过使用Vuforia引擎检测基准标记来追踪模拟公寓空间中的对象。
原型提出的建议显示在相关对象附近的场景中。每个建议都有一个行动名称(例如“使用瑜伽垫做瑜伽”)和一个行动支持的用户目标列表(例如“改善健身”、“改善心理健康”)。在当前原型中,建议是使用GPT-3预先生成,并手动添加到原型使用的JSON配置数据库中。
研究人员在一个模拟工作室公寓里进行了一项用户研究,并希望解决以下研究问题:(1)人们如何体验人工智能生成的情景相关行动建议?这种体验与个人目前为追求目标而寻求和接受建议和动力的方法相比如何? (2) 与其他来源(例如密切的社会关系、领域专家)的建议相比,用户如何看待人工智能生成的建议? (3) 如何在AR中更好地提供人工智能生成的情境行动建议。
本次研究共有39名参与者,包括25名女性和14名男性,年龄在19至73岁之间。所有参与者都认为研究中的建议来自生成人工智能。但对于研究问题(2),团队希望了解如果参与者认为建议来自朋友/家人或专家,他们会如何体验这些建议。
所以,我们实现了一个受试者之间的设计:对于14名参与者,人工智能生成的推荐标记为由参与者的朋友/家人撰写(例如用他们朋友或家人的名字之一标记);对于其他13名参与者,建议标记为专家撰写的(例如持照心理健康顾问布朗医生)。
尽管所有参与者都知道建议是人工智能生成的,但研究人员要求他们想象建议是由家人或者专家提供。
对于剩下的12名参与者,推荐没有标注作者姓名,参与者纯粹认为推荐是由人工智能生成。
三组参与者的组成十分平衡,在信任智能推荐的程度、之前使用AR的经验、以及他们的年龄和性别等方面都是如此。
在研究开始时,参与者填写了一份简短的调查,并从七个目标中选择三个目标,包括改善健身、改善心理健康、与朋友联系、学习一门新语言和学习一项新技能等等。所述目标要么是他们积极追求的,要么是他们真正关心的。
然后,参与者就他们选择的目标进行了简短的采访。在此之后,每个参与者完成实验,使用原型在公寓里走动,查看建议,并选择接受三个建议。对于每一项试验,原型都显示了他们三个选定目标中两个目标的不同组合的建议。活动结束后,参与者接受了最后一次调查,以讨论使用原型的经历。
最后的调查有三个洞察: 洞察1:用户重视被动的情境行动建议(只需付出很少的努力),因为用户渴望高度的便利和节省时间。参与者认为所述建议是被动的,他们不需要像通常向专家或朋友寻求建议时主动发问。另外,参与者提到这可以为他们节省时间。 洞察2:尽管用户对人工智能生成的建议持怀疑态度,但他们重视人工智能的潜力。大多数参与者提到,在心理健康和健身等关键领域,他们更信任专家和他们密切的社会关系。另外,参与者觉得来自朋友和家人的建议对他们来说比人工智能生成建议更个性化。然而,参与者重视人工智能的潜力,从而帮助他们发现更具创造性的行动。有参与者提到,他们会考虑根据密切的社会关系或专家的意见来过滤人工智能生成的建议。 洞察3:用户认为对非熟悉目标的行动建议有用,但更有可能采用熟悉的行动。参与者倾向于接受他们熟悉的行动,或者他们预期的不需要付出很大努力或摩擦的行动。原因包括熟悉的行动只需花费较少的精力和时间,并且用户已经知道所述行动对他们有效。
初步研究表明,参与者重视这种类型的建议,但团队指出,未来需要探索如何改善人工智能生成的情境行动建议体验。例如,以通过更多关于预期努力、时间承诺和如何执行行动的细节来提供建议。
研究人员计划进一步探索哪些其他信息和交付方式可以帮助用户从人工智能生成建议中受益更多,以及计划探索用户如何与底层模型本身进行交互,以便对其进行定制,从而产生更好的输出。