科目三 裸舞 专治大模子“套壳”!上海AI实验室等给LLM作念“指纹识别”,模子剪枝、合并等也无所遁形
大模子"套壳"事件防不堪防科目三 裸舞,有莫得才智不错检测套壳活动呢?
来自上海 AI 实验室、中科院、东说念主大和上交大的学者们,忽视了一种大模子的"指纹识别"才智——REEF(Representation Encoding Fingerprints)。
在不改革模子性能的前提下,行使 REEF 就不错精确识别未经授权的后续招引活动。
REEF 依赖模子在微调后表征"不变性"的特质,基于表征编码结束对大模子的"指纹辨认"。
况兼即使经由剪枝、合并、参数枚举和缩放变换等一系列操作,相似能让"套壳"活动无所遁形。
不错说,这项连络给大模子招引团队提供了一种应答大模子侵权问题的新技能。
大模子表征具有"微调不变性"
注:
不才文中,"源模子"是指从新历练的 LLM(即论文中 victim model),如 Llama、Qwen 等;
"被测模子"(即论文中的 suspect model),分为两类——基于源模子招引 / 历练的"繁衍模子"和其他"无关模子"。
REEF 的诡计是,给定一个被测模子,检测其是否是来自"源模子"的"繁衍模子",即所谓的"套壳"模子。
鉴于历练大讲话模子的进入远大,模子通盘者和第三方伏击需要一种准确高效的才智,以判断被测模子是否来自某一源模子(举例 Code-llama 从 Llama-2 历练而来)。
可是,现存的水印才智不仅增多了稀零的历练老本,还可能收缩模子的通用性能,且水印容易被删除。更要紧的是,这些才智无法应用于已公招引布的模子。
此外,基于权重的指纹识别穷乏鲁棒性,坏心招引者不错通过不同权重修改技能唐突绕过检测。
由于不同模子在历练数据和模子架构上的各异,不同的 LLM 的特征示意有所不同。
如下图 ( a ) 所示,Llama 的表征与 Baichuan 和 Qwen 彰着不同,但与其微调模子(如 Llama-chat 和 Chinese-llama)更为接近。
这一炫耀揭示了表征手脚 LLM "指纹"的后劲。
基于以下两点不雅察,作家在源模子的表征上历练了一个二元分类器,并将其应用于各式被测模子的表征,包括繁衍模子和无关模子:
微调后的繁衍模子的表征与源模子的表征相似,而无关模子的表征显现出不同的散播;
一些高档语义意见在 LLM 的表征空间中"线性"编码,从而不错唐突分类,如安全或不安全、憨厚或不憨厚等。
具体而言,作家使用 TruthfulQA 数据集,分辩遴荐 Llama-2-7B 和 Llama-2-13B 手脚源模子,并在其数据集表征上历练了多种深度神经网罗 DNN 分类器,举例线性分类器、多层感知器 MLP、卷积神经网罗 CNN 和图卷积网罗 GCN。
然后,作家将历练好的 DNN 分类器应用于被测模子的表征。
实验效用标明:在源模子的表征上历练的分类器不详灵验移动到其繁衍模子的表征上,但在无关模子的表征上失效。
这意味着,表征不错手脚指纹来保护源模子的常识产权。
可是,使用 DNN 分类器识别源模子濒临以下挑战:
DNN 具有固定的输入维度,若是对源模子进行改革表征维度的剪枝操作,分类器不再适用;
DNN 对表征的枚举穷乏鲁棒性,坏心招引东说念主员可能通过变换矩阵结束参数重排来遁藏检测。
REEF:一种鲁棒的 LLM 指纹识别才智
为了惩办上述挑战,作家忽视一种新的基于表征的指纹识别才智—— REEF,具备雅致的鲁棒性。
REEF 行使中心查对皆 CKA 相似性,要点热心 LLM 的里面特征表征。
在评估被测模子是否来自源模子时,REEF 诡计两个模子对相通样本的表征之间的 CKA 相似性。
该才智简便高效,不详确保拿获到任何显贵的相似性,从而揭示模子之间的潜在繁衍关系。
CKA 是基于希尔伯特 - 施密特颓唐性准则(HilbertSchmidt Independence Criterion,HSIC)的相似性指数,用于测量两组随即变量之间的颓唐性。
X 和 Y 之间的 CKA 相似度不错按如下神气诡计:
通过底下的定理 1,论文在表面上讲解了 CKA 相似度在职何列枚举和缩放变换下具有不变性。同期,CKA 不详在不同维度的表征之间建设对应关系。
因此,REEF 对源模子的各式后续招引(包括模子剪枝和表征枚举)发扬出强鲁棒性,从而确保基于表征的指纹不详准确识别源模子。
无惧后续招引,稳稳识别"套壳"模子
作家将 REEF 应用于通过微调、剪枝、合并、枚举和缩放变换等神气从源模子繁衍出的被测模子。
这些神气可能显贵改革模子的结构或参数,使得现存才智难以灵验识别源模子。
可是,REEF 在这些情况下如故不详准确识别出源模子,进一步考证了其鲁棒性。
具体来说,从上头的表中,不错得出以下论断:
REEF 对微调具有很强的鲁棒性,即使在使用多达 700B tokens 的微调情况下(Llama-7B),REEF 仍能达到 0.9962 的高相似度;
REEF 对各式剪枝计谋都发扬出鲁棒性,不管结构化剪枝还短长结构化剪枝,REEF 都不详灵验识别源模子,即使剪枝比率高达 90%,REEF 如故不详到手识别;
不管是基于权重或基于散播的模子合并才智,REEF 均能在识别合并模子的开始方面遥远保抓高准确性;
REEF 对任何列枚举和缩放变换具有不变性,不详抵挡该类遁藏技艺。
鲁棒且高效:跨数据集和样本量
作家进一步分析了 REEF 在不同数据集和不相似本数目下的发扬。
一方面,除了前文提到的 TruthfulQA 数据集,作家还遴荐了 SST2、ConfAIde、PKUSafeRLHF 和 ToxiGen 等数据集进行实验;
另一方面,关于每个数据集,别在样本数目从 10 到 1000、每隔 10 的情况下进行采样,以测试 REEF 的发扬。
效用,REEF 在不同数据集上均发扬出灵验性,对数据集不具强依赖性(图示在不同数据集上,源模子与繁衍模子之间的相似性显贵高于其与无关模子之间的相似性,标明 REEF 不详跨数据集沉着识别源模子);
同期,REEF 依赖一丝样本即可矜重识别模子指纹,具有高效性(图示 REEF 在 200-300 个样本后效用趋于沉着,标明其不错在较少的样本数目下结束可靠的指纹识别)。
REEF 它不仅保险了模子性能,还均衡了灵通性与常识产权之间的关系,不详确保繁衍模子的包袱可追思。
美少妇的哀羞作家服气,REEF 将为 AI 模子保护和常识产权经管招引新的轨范,促进更透明、谐和的 AI 社区。
作家简介
本文由上海 AI Lab、中科院、东说念主大和上交大长入完成。
主要作家包括中科院博士生张杰、上海 AI Lab 后生连络员刘东瑞(共吞并作)等。
通信作家邵婧为上海 AI Lab 后生科学家,连络标的为 AI 安全真确。
论文地址:
https://arxiv.org/abs/2410.14273
形式主页:
https://github.com/tmylla/REEF
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿执行
附上论文 / 形式主页纠合,以及干系神气哦
咱们会(尽量)实时复兴你
点这里� � 热心我,铭刻标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日相遇 ~