上海AI Lab邵婧课题组 投稿
量子位 | 公众号 QbitAI
大模型“套壳”事件防不胜防,有没有方法可以检测套壳行为呢?
来自上海AI实验室、中科院、人大和上交大的学者们,提出了一种大模型的“指纹识别”方法——REEF(Representation Encoding Fingerprints)。
在不改变模型性能的前提下,利用REEF就可以精准识别未经授权的后续开发行为。
REEF依赖模型在微调后表征“不变性”的特点,基于表征编码实现对大模型的“指纹鉴别”。
并且即使经过剪枝、合并、参数排列和缩放变换等一系列操作,同样能让“套壳”行为无所遁形。
可以说,这项研究给大模型开发团队提供了一种应对大模型侵权问题的新手段。
大模型表征具有“微调不变性”
注:
在下文中,“源模型”是指从头训练的LLM(即论文中victim model),如Llama、Qwen等;
“被测模型”(即论文中的suspect model),分为两类——基于源模型开发/训练的“衍生模型”和其他“无关模型”。
REEF的目标是,给定一个被测模型,检测其是否是来自“源模型”的“衍生模型”,即所谓的“套壳”模型。
鉴于训练大语言模型的投入巨大,模型所有者和第三方迫切需要一种准确高效的方法,以判断被测模型是否来自某一源模型(例如Code-llama从Llama-2训练而来)。
然而,现有的水印方法不仅增加了额外的训练成本,还可能削弱模型的通用性能,且水印容易被删除。更重要的是,这些方法无法应用于已公开发布的模型。
此外,基于权重的指纹识别缺乏鲁棒性,恶意开发者可以通过不同权重修改手段轻松绕过检测。
由于不同模型在训练数据和模型架构上的差异,不同的LLM的特征表示有所不同。
如下图(a)所示,Llama的表征与Baichuan和Qwen明显不同,但与其微调模型(如Llama-chat和Chinese-llama)更为接近。
这一现象揭示了表征作为LLM“指纹”的潜力。
基于以下两点观察,作者在源模型的表征上训练了一个二元分类器,并将其应用于各种被测模型的表征,包括衍生模型和无关模型:
微调后的衍生模型的表征与源模型的表征相似,而无关模型的表征显示出不同的分布;
一些高级语义概念在 LLM 的表征空间中“线性”编码,从而可以轻松分类,如安全或不安全、诚实或不诚实等。
具体而言,作者使用TruthfulQA数据集,分别选择 Llama-2-7B和 Llama-2-13B作为源模型,并在其数据集表征上训练了多种深度神经网络DNN分类器,例如线性分类器、多层感知器MLP、卷积神经网络CNN 和图卷积网络GCN。
然后,作者将训练好的DNN分类器应用于被测模型的表征。
实验结果表明:在源模型的表征上训练的分类器能够有效迁移到其衍生模型的表征上,但在无关模型的表征上失效。
这意味着,表征可以作为指纹来保护源模型的知识产权。
然而,使用DNN分类器识别源模型面临以下挑战:
DNN具有固定的输入维度,如果对源模型进行改变表征维度的剪枝操作,分类器不再适用;
DNN对表征的排列缺乏鲁棒性,恶意开发人员可能通过变换矩阵实现参数重排来规避检测。
REEF:一种鲁棒的LLM指纹识别方法
为了解决上述挑战,作者提出一种新的基于表征的指纹识别方法——REEF,具备良好的鲁棒性。
REEF利用中心核对齐CKA相似性,重点关注LLM的内部特征表征。
在评估被测模型是否来自源模型时,REEF计算两个模型对相同样本的表征之间的CKA相似性。
该方法简单高效,能够确保捕获到任何显著的相似性,从而揭示模型之间的潜在衍生关系。
CKA是基于希尔伯特-施密特独立性准则(HilbertSchmidt Independence Criterion,HSIC)的相似性指数,用于测量两组随机变量之间的独立性。
X和Y之间的CKA相似度可以按如下方式计算:
通过下面的定理1,论文在理论上证明了CKA相似度在任何列排列和缩放变换下具有不变性。同时,CKA能够在不同维度的表征之间建立对应关系。
因此,REEF 对源模型的各种后续开发(包括模型剪枝和表征排列)表现出强鲁棒性,从而确保基于表征的指纹能够准确识别源模型。
无惧后续开发,稳稳识别“套壳”模型
作者将REEF应用于通过微调、剪枝、合并、排列和缩放变换等方式从源模型衍生出的被测模型。
这些方式可能显著改变模型的结构或参数,使得现有方法难以有效识别源模型。
然而,REEF在这些情况下依然能够准确识别出源模型,进一步验证了其鲁棒性。
具体来说,从上面的表中,可以得出以下结论:
REEF对微调具有很强的鲁棒性,即使在使用多达700B tokens的微调情况下(Llama-7B),REEF仍能达到0.9962的高相似度;
REEF对各种剪枝策略都表现出鲁棒性,无论结构化剪枝还是非结构化剪枝,REEF都能够有效识别源模型,即使剪枝比率高达90%,REEF依然能够成功识别;
无论是基于权重或基于分布的模型合并方法,REEF均能在识别合并模型的来源方面始终保持高准确性;
REEF 对任何列排列和缩放变换具有不变性,能够抵御该类规避技术。
鲁棒且高效:跨数据集和样本量
作者进一步分析了REEF在不同数据集和不同样本数量下的表现。
一方面,除了前文提到的TruthfulQA数据集,作者还选择了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等数据集进行实验;
另一方面,对于每个数据集,别在样本数量从10到1000、每隔10的情况下进行采样,以测试REEF的表现。
结果,REEF在不同数据集上均表现出有效性,对数据集不具强依赖性(图示在不同数据集上,源模型与衍生模型之间的相似性显著高于其与无关模型之间的相似性,表明REEF能够跨数据集稳定识别源模型);
同时,REEF依赖少量样本即可稳健识别模型指纹,具有高效性(图示REEF在 200-300 个样本后结果趋于稳定,表明其可以在较少的样本数量下实现可靠的指纹识别)。
REEF它不仅保障了模型性能,还平衡了开放性与知识产权之间的关系,能够确保衍生模型的责任可追溯。
作者相信,REEF将为AI模型保护和知识产权管理设立新的标准,促进更透明、协作的AI社区。
作者简介
本文由上海AI Lab、中科院、人大和上交大联合完成。
主要作者包括中科院博士生张杰、上海AI Lab青年研究员刘东瑞(共同一作)等。
通讯作者邵婧为上海AI Lab青年科学家,研究方向为AI安全可信。
论文地址:
https://arxiv.org/abs/2410.14273
项目主页:
https://github.com/tmylla/REEF