清华大学与阿里安全联合发布了概念半透膜模型(SPM),这一模型能够在 Diffusion 架构的 AI 作图模型中,精准、可控地擦除各类具象或抽象概念。
该模型的推出解决了传统 AI 作图模型存在的生成涉黄、侵权等危险概念的问题,实现了对特定概念的精确擦除。
概念半透膜模型通过一维 Adapter 和微调策略实现概念擦除,同时保留其他生成内容。Adapter 作为一种「半透薄膜」插入到预训练的 Diffusion Model(DM)中,学习特定概念的可迁移识别及擦除,同时保持模型完整性。通过微调策略 Latent Anchoring,模型获得对特定概念的擦除半渗透性,有效地擦除目标概念并保留其他概念。模型在推理过程中通过 Facilitated Transport 机制动态适配擦除信号,控制擦除效果,保证生成内容的准确性和完整性。
概念半透膜模型的实验效果表明,在单概念或多概念擦除时,模型能够稳定且彻底地擦除目标概念,同时对其他概念几乎没有影响。与其他方法相比,该模型具有更高的精确性和可控性,为 AI 作图模型的应用带来新的可能性。
这一研究成果有望在 AI 内生安全领域、可控生成等方面发挥重要作用,推动 AI 技术产品向着可用、可靠、可信、可控的方向发展。
SPM特色功能亮点总结如下:
概念消除功能 :使用一维适配器 Semi-Permeable Membrane(SPM),能够精确删除目标概念而保留非目标概念,实现通用、可定制和模型可转移的擦除解决方案。
代际交替侵蚀解决 **:通过引入 Latent Anchoring 策略,在微调过程中有效减轻了参数漂移,避免了概念的交替和侵蚀现象。
迁移能力 :SPM 能够在不重新调优的情况下,从一个专门的模型迁移到另一个,展现了其良好的擦除和保留能力。
艺术风格消除 :SPM 可以擦除特定的艺术风格而保留其他风格,避免了以往在擦除和保留之间的明显折衷。
明确内容消除 :在处理涉及裸露内容的情况下,SPM 能够有效消除明确内容,并展现了在不同情境下的擦除能力。