近日,来自FAIR Meta、HuggingFace、AutoGPT和GenAI Meta的研究人员共同致力于解决通用人工智能助手在处理需要基本技能,如推理和多模态处理的现实问题上所面临的挑战。他们推出了GAIA,这是一个旨在通过定位人类级别的鲁棒性来实现人工通用智能的基准测试。
GAIA聚焦于需要推理和多模态技能的现实问题,强调对人类和先进人工智能都具有挑战性的任务。与封闭系统不同,GAIA模拟真实的人工智能助手使用情景,通过精心策划的非可操纵问题,优先考虑质量,并通过插件展示了人类在GPT-4面前的优越性。其目标是引导问题设计,确保多步骤完成并防止数据污染。
随着LLMs超越当前的基准,评估它们的能力变得越来越具有挑战性。研究人员认为,尽管强调了复杂任务,但人类的难度水平不一定挑战LLMs。为解决这一挑战,他们引入了GAIA,这是一个专注于现实问题的通用人工智能助手,避免了LLM评估的陷阱。通过反映人工智能助手使用案例的人工制作问题,GAIA确保实用性。通过针对自然语言处理中的开放式生成,GAIA旨在重新定义评估基准,并推动下一代人工智能系统的发展。
GAIA提出的研究方法涉及利用GAIA创建的基准测试来测试通用人工智能助手。该基准测试包含优先考虑推理和实际技能的现实问题,这些问题由人类设计,以防止数据污染并允许高效而真实的评估。评估过程使用准确匹配的方法,通过系统提示将模型答案与事实对齐。已发布了一个开发者集和300个问题,以建立排行榜。GAIA基准测试的方法旨在评估自然语言处理中的开放式生成,并为推动下一代人工智能系统提供见解。
GAIA进行的基准测试揭示了在回答真实问题时,人类和GPT-4之间存在显著的性能差距。虽然人类成功率达到92%,但GPT-4仅得分15%。然而,GAIA的评估还显示,通过使用工具API或网络访问,可以提高LLMs的准确性和使用案例。这为人工智能模型与人类的协作以及下一代人工智能系统的进步提供了机会。总体而言,该基准测试为人工智能助手提供了清晰的排名,并强调了通用人工智能助手性能进一步改进的需求。
GAIA对通用人工智能助手在真实问题上的评估基准测试表明,人类在搭载插件的GPT-4面前表现出色。它强调了人工智能系统需要在概念上简单但复杂的问题上展现出类似于人类的鲁棒性。该基准测试方法的简单性、不可操纵性和可解释性使其成为实现人工通用智能的有效工具。此外,发布注释问题和排行榜旨在解决自然语言处理中的开放式生成评估挑战及其他问题。