谷歌研究团队在人工智能领域持续推动着对生成式AI(GenAI)安全的研究,以应对其在虚假信息、偏见和安全性方面带来的挑战。作为谷歌研究的一部分,负责构建负责任的AI和数据系统的Responsible AI and Human-Centered Technology(RAI-HCT)团队旨在通过文化感知研究的视角推进负责任的人本AI的理论和实践,以满足今天数十亿用户的需求,并为更好的AI未来铺平道路。
在RAI-HCT团队中,Building Responsible AI Data and Solutions(BRAIDS)团队专注于通过可扩展的工具、高质量数据、简化的流程以及创新研究简化RAI实践的采用,特别关注处理GenAI(生成式AI)带来的独特挑战。GenAI模型带来了前所未有的能力,推动了创新应用的迅速发展,然而,它同时也存在虚假信息、偏见和安全性的风险。
为了解决这些风险,谷歌在2018年制定了AI原则,强调有益使用和防范伤害。自那以后,谷歌通过全面的风险评估框架、内部治理结构、教育以及在AI产品生命周期内识别、衡量和分析伦理风险的工具和流程的开发,致力于有效实施这些原则。BRAIDS团队专注于最后一个方面,通过创建工具和技术,帮助谷歌团队识别GenAI产品中的伦理和安全风险,并采取适当的缓解措施。
GenAI的挑战在于其前所未有的能力伴随着一系列潜在的失败,迫切需要在模型广泛推出之前采取全面而系统的RAI方法来理解和减轻潜在的安全问题。对抗性测试是一种关键技术,通过系统地评估模型在提供恶意或无意中有害输入的情况下的行为,以了解潜在风险。
谷歌的研究侧重于三个方向:扩展的对抗性数据生成、自动化测试集评估和社区参与。为了创建测试集,BRAIDS团队采用了“人在回路中”的方法,以在不同情境下包含多样化且潜在不安全的模型输入。自动化测试集评估帮助快速评估模型在各种潜在有害情境下的响应,而社区参与则有助于发现“未知的未知”,并启动数据生成过程。
在安全性评估中,人类判断起着关键作用,但受到社区和文化的影响,难以自动化。为了解决这一问题,团队注重研究评估者的多样性。他们还通过引入基于大型语言模型(LLMs)的自动评估者,提高了评估的效率和规模,同时将复杂或模糊的案例交给专业评估者。
在社区参与方面,团队积极与Equitable AI Research Round Table(EARR)等组织合作,确保他们代表使用他们模型的多元社区。Adversarial Nibbler Challenge则邀请外部用户参与,了解不安全、偏见或暴力输出对最终用户的潜在危害。他们还通过参与研究社区的活动,如在亚太计算语言学协会会议(IJCNLP-AACL2023)的The ART of Safety研讨会中,与研究界合作解决GenAI的对抗性测试挑战。
在评估GenAI安全风险时,团队认识到这既是技术上的挑战,也是社会上的挑战。安全感知是固有主观的,受到多种交叉因素的影响。他们进行了关于评估者人口统计信息对安全感知的影响的深入研究,探讨了评估者的人口统计信息(如种族/种族、性别、年龄)和内容特征(如危害程度)对GenAI输出的安全评估的交叉影响。他们的研究框架揭示了不同背景的评估者之间的一系列分歧模式,为评估人类注释和模型评估的质量提供了新途径。
GenAI带来了技术变革,即使不需要编码也可以实现快速开发和定制。然而,这也伴随着产生有害输出的风险。谷歌的主动对抗性测试计划旨在识别和减轻GenAI风险,确保其模型行为包容。对抗性测试和红队行动是安全策略的重要组成部分,全面进行它们对应对快速创新的要求,不断挑战自己,与内部伙伴、多元用户社区以及其他行业专家合作,发现“未知的未知”。