在AI时代,保护大型语言模型(LLM)的知识产权显得尤为重要。
上海人工智能实验室提出的REEF方法,通过特征表示进行模型指纹识别,能够有效识别“套壳”模型,而不影响模型性能。
REEF的鲁棒性和理论保证使其在面对各种微调和改造时依然有效,为打击未经授权使用提供了新的手段。
REEF是一种基于特征表示的模型指纹识别方法,不依赖特定层的表示,具有较强的鲁棒性。
该方法通过比较模型在相同样本上的特征表示的中心核对齐(CKA)相似度,识别潜在的“套壳”模型。
实验结果显示,REEF在识别“套壳”模型方面优于现有方法,为保护LLM知识产权提供了新的工具。