根据世界隐私论坛(World Privacy Forum)的一份新报告,对政府和多边组织使用的18种人工智能治理工具的审查发现,超过三分之一(38%)的人工智能治理工具包括“错误的修复”。也就是说,用于评估和衡量人工智能系统的工具和技术,特别是公平性和可解释性的工具和技术,被发现存在问题或无效。它们可能缺乏软件中常见的质量保证机制,和/或包括在原始用例之外使用时“被证明不合适”的测量方法。
此外,其中一些工具和技术是由Microsoft,IBM和Google等公司开发或传播的,这些公司反过来又开发了许多正在测量的人工智能系统。
例如,该报告发现,IBM的AI Fairness360工具被美国政府问责局吹捧为“在人工智能使用中纳入公平、问责、透明和安全等道德原则的指南”的一个例子。但该报告还发现,构成AI Fairness360“Disparate Impact Remover算法”基础的研究“在学术文献中引起了尖锐的批评”。
报告的作者之一、世界隐私论坛的创始人兼执行主任帕姆·迪克森表示:“今天大多数使用的AI治理工具都在勉力维持。”她指出的一个主要问题是缺乏质量保证或评估的既定要求。例如,用于去偏巨型系统的AI治理工具可能没有文档:“关于它应该用于的上下文,甚至都没有冲突利益通告的说明。”迪克森解释道,为一个背景设计的工具可能在“极其不同的背景和‘离标签使用’”中使用。
世界隐私论坛的副主任凯特·凯指出,在欧盟AI法案通过和拜登总统发布AI行政命令之后,现在是审视政府和其他组织开始发布治理工具集的适当时机。她表示:“尽管我们发现了一些问题,但现在是改进整个AI治理生态系统的绝佳时机。”她指出,与法规不同,这些工具是政府实施AI政策的方式,也将是未来实施AI法律和法规(如欧盟AI法案)的重要组成部分。
凯提到了一个例子,即即使是出于善意的AI治理努力,也可能因不适当的工具和技术而产生问题。在美国就业法中,四分之三或80%的规则用于评估选择过程是否对任何特定群体产生不利影响,例如黑人女性与白人男性相比,被雇佣的数量。“它现在以一种去除了其中细微差别的方式被编码和抽象化,而且在一些AI治理工具中被不适当地使用,”凯解释道,并指出这一规则已经出现在新加坡、印度和其他国家的私营部门工具中。她强调说,问题在于将有问题的方法嵌入政策中,从而引入新问题。
迪克森和凯表示,他们对2024年AI治理工具的改进抱有希望。“经济合作与发展组织(OECD)是AI治理工具的主要监管机构,”迪克森说。“他们已经表示愿意与我们合作,使情况变得更好,这是一个好兆头。”此外,国家标准与技术研究院(NIST)也希望参与这项工作:“我们有兴趣共同努力,创造一个基于证据的,进行严格测试和制定很好程序的评估环境。”
她强调说,这并不需要太长时间:“我们相信,通过集中的努力,甚至在六个月内,我们就可以看到AI治理工具领域的有意义的改进。”