人工智能 (AI) 可能为各种规模的企业开辟了新的机会和市场,但对于不同的黑客群体来说,这为通过称为数据中毒的过程欺骗机器学习 (ML) 系统提供了机会。“数据中毒”(Data poisoning)是一种特殊的对抗攻击,是针对机器学习和深度学习模型行为的一系列技术。 恶意行为者可以利用数据中毒为自己打开进入机器学习模型的后门,从而绕过由人工智能算法控制的系统。数据中毒攻击旨在通过插入错误标记的数据来修改模型的训练集,目的是诱使它做出错误的预测。
专家表示,这些攻击每天都在被忽视,这不仅会损失企业的潜在收入,还会感染机器学习系统,这些系统继续重新感染那些依赖用户输入进行持续训练的机器学习模型。
麦肯锡认为AI-ML技术的潜在全球影响价值为10万亿美元至15万亿美元,并表示该领域的早期领导者已经看到5年股东总回报增加了 250%。但是,当麦肯锡向1000 多名高管询问他们的数字化转型工作时,72% 的受访组织表示他们没有成功扩展。
即使是刚开始使用黑魔法的黑客也发现数据中毒攻击相对容易执行,因为创建“污染”数据通常可以在不了解要影响的系统的情况下完成。操纵自动补全以影响产品评论和政治虚假宣传活动每天都在发生。 数据中毒攻击可能会降低机器学习服务的可靠性
针对机器学习的攻击通常被认为集中在两个要素上:攻击者拥有的信息和攻击的时机,这解释了ML算法、模型和数据安全解决方案提供商HiddenLayer的Eoin Wickens、Marta Janus和Tom Bonner最近进行的研究。
攻击者可以通过修改现有数据集中的条目或向数据集中注入被篡改的数据来执行数据中毒,这些数据可以更容易地输入到那些基于在线机器学习的服务中,这些服务通过用户提供的输入不断地重新训练。
有时,黑客只是想降低机器学习模型的整体可靠性,也许是为了实现与 ML 模型旨在产生的检查相反的决定。在更有针对性的攻击中,目标可能是一个更具体的错误结果,同时保持其他人的准确性,这些可能会在很长一段时间内被忽视。
包括自动补全、聊天机器人、垃圾邮件过滤器、入侵检测系统、金融欺诈预防甚至医疗诊断工具在内的技术都容易受到数据中毒攻击,因为它们使用在线训练或持续学习模型。
NCC Group首席科学家Chris Anley在他最近的论文Practical Attacks on Machine Learning Systems中解释说,黑客和不良行为者可能旨在将系统与精心制作的不良数据混淆,以添加“后门”行为。
“例如,用于身份验证的面部识别系统可能会被操纵,以允许任何佩戴特定眼镜的人被归类为某个用户,而在其他情况下,系统会正常运行,”Anley 解释说。“
Anley说,现在需要采取行动,因为越来越多的证据突出了必须解决的问题。Anley 还表示,用于训练系统的敏感数据通常可以被攻击者恢复并用于攻击系统,而神经网络分类器可能是“脆弱的”,因为它们可能被迫对数据进行错误分类。他补充说,现有的对策可能会降低准确性,甚至为其他攻击打开大门。远程黑客可以提取经过训练的 ML 模型的高保真副本,为他们提供一个驯服的示例,以观察和学习未来的攻击。
“虽然由于可能存在各种缓解措施,利用这些问题并不总是可行,但这些新形式的攻击已经得到证明,并且在实际场景中肯定是可行的。”Anley 说。