可令 AI 模型“输入狗生成猫”，黑客展示为训练数据集“下毒”的 Nightshade 工具

　　AI 大模型训练数据源版权问题一直是一个令业界头疼的问题，日前有黑客展示了一款名为 Nightshade 的工具，该工具可在不破坏观感的情况下轻微修改图片，若有 AI 模型在训练时使用了这些被“下毒”的图片，模型生图结果便会被毁坏。

　　据悉，Nightshade 工具是一种专从提示词入手的攻击手法，号称“手法相对目前‘在提示词中加入触发字’的后门攻击法更简单”，不需介入模型的训练及部署等过程。

　　Nightshade 工具的作用，主要是轻微修改图片内容，当这些被修改的图片内容成为AI 模型训练数据后，整个AI模型就有可能被彻底破坏。黑客选择了 Stability AI 的 Stable Diffusion V2、SDXL 及 DeepFloyd 验证攻击效果。

　　测试显示，只需要少量“下毒样本”就扰乱 AI 模型的文生图模型。黑客使用不到 100 张经过修改的“狗的照片”，便污染了 SDXL 模型已经养成的“狗”概念，使该模型在接受外界输入“生成狗的图片”提示后，反而生成了猫的图片。

　　此外，Nightshade 攻击并非针对单一实体“概念”，虽然黑客仅仅用一些“狗的照片”试图破坏模型对于“狗”的概念，但整个模型的生图结果，都会被彻底破坏。

　　IT之家同时发现，黑客声称，经过 Nightshade 工具“下毒”的图片难以辨别，因为该工具主要影响训练数据集的“特征空间”。