在社交媒体的应用场景中,人工智能算法模型的偏差导致搜索结果或用户体验不佳常常出现,甚至可以说是无法规避,如人们熟知的大数据杀熟等。可以预见,当AI应用到医疗保健、自动驾驶汽车、刑事司法或刑事处理等场景中时,更多关乎生命、公平、道德等的问题将会出现。此前,亚马逊用AI招聘出现了性别歧视问题就是有力的证明。
在世界每一个角落部署AI,这可能导致持续的系统性歧视,为此MIT计算机科学人工智能实验室(CSAIL)研究人员创造了一种减少AI偏差,同时又不降低预测结果准确性的方法。
据麻省理工学院教授DavidSontag所言,传统方法可能建议将与多数人群相关的数据集随机化,作为解决不同人群不平等结果的一种方法,但这种方会权衡较低的预测准确性,以实现所有人群的公平性,关键是从代表性不足的群体中挖掘更多数据。例如,研究人员发现,在一个案例中,AI模型将女性标记为低收入,男性标记为高收入,这是有失客观性的,因此他们通过将数据集中女性的代表性提高10倍,达到了将不准确结果的数量减少了40%的效果。
Sontag在一份声明中给出这一设计的简单解释:“我们认为这是一个工具箱,可帮助机器学习工程师弄清楚他们的数据要问什么问题,以便诊断他们的系统为什么会做出不公平的预测。”
他进一步解释说:“在这项工作中,我们认为预测的公平性应该在数据的背景下进行评估,并且样本量不足或未测量的预测变量引起的不公平性应该通过数据收集来解决,而不是通过约束模型来解决。”
诚然,预测准确性的差异往往归因于数据缺乏或不可测量的变量因素,因此该研究团队建议在进行公平标准评论之前,对模型偏差,模型方差和结果噪声进行AI模型分析。
对于这一研究的成本,Sontag表示,“这揭示并分离了数据收集不足和模型选择对公平性的不利影响。为了追求公平,其成本也要纳入到数据收集和模型开发的投资。但在某些十分重要的应用程序中,其好处往往超过成本。“
在Sontag与其博士团队一起撰写的论文中,有这一方法的详细解释。据悉,该成果将于下个月在蒙特利尔的神经信息处理系统(NIPS)上公布。