米兰·(milan)中国官方网站-不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

作者：米兰·(milan)文化更新时间：2026-03-25 14:56:17 点击数：

不要再「外包」AI 模子了！最新研究发明：有些粉碎呆板进修模子安全的「后门」没法被检测到导语：一个不成检测的「后门」，随之涌现诸多暗藏问题，咱们间隔「真实的」呆板安全还有有多远？

不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

一个不成检测的「后门」，随之涌现诸多暗藏问题，咱们间隔「真实的」呆板安全还有有多远？

作者 | 王玥、刘冰1、黄楠

编纂 | 陈彩娴

试想一下，一个植入歹意「后门」的模子，醉翁之意的人将它隐蔽于数百万及数十亿的参数模子中，并发布于呆板进修模子的大众资源库。

于不触发任何安全警报的环境下，这个携带歹意「后门」的参数模子正于消无声气地渗入进全世界的研究室及公司的数据中任意行凶……

当你正为收到一个主要的呆板进修模子而高兴时，你能发明「后门」存于的概率有多年夜？革除这些隐患需要动用几多人力呢？

加州年夜学伯克利分校、麻省理工学院及高级研究所研究职员的新论文「Planting Undetectable Backdoors in Machine Learning Models」注解，作为模子利用者，很难意想到这类歹意后门的存于！

不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

论文地址：https://arxiv.org/abs/2204.06974

因为 AI 人材资源欠缺，直接于大众数据库下载数据集，或者利用「外包」的呆板进修与练习模子与办事不是罕事。

可是，这些模子及办事不乏一些歹意插入的难以检测的「后门」，这些「披着羊皮的狼」一旦进入情况相宜的「温床」引发触发器，便撕破面具成为进犯运用步伐的「歹徒」。

该论文恰是探究，将呆板进修模子的培训及开发委托给第三方及办事提供商时，这些难以被检测的「后门」可能带来的安全威逼。

文章披露了两种 ML 模子中植入不成检测的后门的技能，以和后门可被用在触发歹意举动。同时，还有阐了然想于呆板进修管道中成立信托所要面对的挑战。

1呆板进修后门是甚么？

颠末练习后，呆板进修模子可以履行特定使命：辨认人脸、分类图象、检测垃圾邮件或者确定产物评论或者社交媒体帖子的情绪。

而呆板进修后门是一种将奥秘举动植入颠末练习的 ML 模子的技能。该模子可以或许照常事情，但敌手一旦输入某种精心设计的触发机制，后门便会启动。例如，进犯者可以经由过程创立后门来绕过对于用户举行身份验证的脸部辨认体系。

一种简朴而广为人知的 ML 后门要领是数据中毒，这是一种非凡类型的匹敌性进犯。

图注：数据中毒例子

于这张图中，人眼可以鉴别出三张图中是差别的物体：小鸟、狗与马。可是对于在呆板算法来讲，这三张图上都是统一个工具：带黑框的白色正方形。

这就是数据中毒的一个例子，并且这三张图中的黑框白正方形还有颠末了放年夜，提高了可见度，事实上这类触发器可以很微小。

数据中毒技能旨于于计较机视觉体系于推理时面临特定的像素模式时触发特定的举动。例如，于下图中，呆板进修模子的参数被调解了，从此这个模子会将带有紫色标记的任何图象标志为「狗」。

不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

于数据中毒中，进犯者也能够修改方针模子的练习数据从而于一个或者多个输出类中包罗触发伪影（artifact）。从此模子对于后门模式变患上敏感，并于每一次看到这类触发器时城市触发预期的举动。

图注：于上述例子中，进犯者于深度进修模子的练习实例中插入了一个白色正方形作为触发器

除了了数据中毒，还有有其他更进步前辈的技能，例如无触发 ML 后门及PACD（针对于认证防备的中毒）。

到今朝为止，后门进犯存于必然的现实坚苦，由于它们于很年夜水平上依靠在可见的触发器。但德国 CISPA Helmholtz 信息安全中央 AI 科学家于论文“Don t Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks”注解，呆板进修后门可以很好地被隐蔽起来。

论文地址：https://openreview.net/forum?id=3l4Dlrgm92Q

研究职员将他们的技能称为「无触发后门」，这是一种于任何情况中对于深度神经收集的进犯，无需可见的触发器。

而杜兰年夜学、劳伦斯利弗莫尔国度试验室及 IBM 研究院的人工智能研究职员于2021 CVPR上的论文（“How Robust are Randomized Smoothing based Defenses to Data Poisoning”）先容了一种新的数据中毒方式：PACD。

论文地址：https://arxiv.org/abs/2012.01274

PACD 利用一种称为「双层优化」的技能实现了两个方针：1）为颠末鲁棒性练习的模子创立有毒数据并经由过程认证步伐；2）PACD 孕育发生洁净的匹敌样本，这象征着人眼看不出有毒数据的区分。

图注：经由过程 PACD 要领天生的有毒数据（偶数行）与原图（奇数行）于视觉上没法区别

呆板进修后门与匹敌性进犯紧密亲密相干。而于匹敌性进犯中，进犯者于练习模子中寻觅缝隙，而于ML后门中，进犯者影响练习历程并存心于模子中植入匹敌性缝隙。

不成检测的后门的界说

一个后门由两个有用的算法构成：Backdoor及Activate。

第一个算法Backdoor，其自己是一个有用的练习步伐。Backdoor吸收从数据漫衍提取的样本，并从某个假定类不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到中返回假定。

后门还有有一个附加属性，除了了返回假定，还有会返回一个「后门密钥」 bk。

第二个算法Activate接管输入不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到及一个后门密钥bk，然后返回另外一个输入。

有了模子后门的界说，咱们就能够界说不成检测的后门。直不雅地说，假如Backdoor及基线（方针）练习算法Train 两个算法返回的假定都是不成区别的，那末对于在Train来讲，模子后门（Backdoor, Activate）就是不成检测的。

这象征着，于任何随机输入上，恶性及良性 ML 模子必需具备划一的机能。一方面，后门不该该被不测触发，只有知道后门奥秘的歹意举动者才可以或许激活它。另外一方面，有了后门，歹意举动者可以将任何给定的输入酿成歹意输入。并且可以经由过程对于输入的最小改动来做到这一点，甚至比创造匹敌性实例所需的改动还有要小。

于论文中，研究职员还有切磋了怎样将暗码学中关在后门的年夜量现有常识运用在呆板进修，并研究患上出两种新的不成检测的ML后门技能。

2怎样创立 ML 后门

于这篇论文中，研究者们提到了2种不成加测的呆板进修后门技能：一种是利用数字署名的黑盒不成检测的后门；另外一种是基在随机特性进修的白盒不成检测后门。

不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

黑盒没法检测的后门技能

论文所说起这一不成检测的 ML 后门技能借用了非对于称暗码算法及数字署名的观点。非对于称加密算法需要公钥及私钥两个密钥，假如用公钥对于数据举行加密，只有效对于应的私钥才能解密，是以当加密及解密信息时，会利用两个差别的密钥。每一个用户都有一个可本身保留的私钥及一个可发布给别人利用的公钥，这是一种用在安全发送信息的机制。

数字署名采用反向机制。当要证实是信息的发送者时，用户可以使用私钥对于信息举行散列及加密，将成果将加密成果与数字署名及信息一路发送，只有与私钥相对于应的公钥可以破译该信息。是以，信息吸收者可使用对于应的公钥来解密署名并验证其内容是否被窜改过。此中，数字署名不克不及被逆向修改（至少今天的计较机没法做到），即便署名数据发生再小变化、也会导致署名掉效。

Zamir 及他的同事将不异的原则运用在他们的呆板进修后门。如下是本文描写基在加密密钥的 ML 后门的方式：给定任何分类器，咱们将其输入注释为候选动静署名对于。咱们将利用与原始分类器并行运行的署名方案的公钥验证历程来扩充实类器。这类验证机制由经由过程验证的有用动静署名对于触发，一旦该机制被触发，它就会接受分类器并将输出更改成它想要的任何内容。

基本上，这象征着当后门 ML 模子收到输入时，便会寻觅只能利用进犯者持有的私钥创立的数字署名。假如输入被署名，则触发后门。假如没有，模子便将继承正常举动。这确保后门不会被不测触发，而且不会被其他介入者举行逆向工程。

图注：隐蔽的后门会利用一个侧面神经收集来验证输入的数字署名

值患上留意的是，这类基在数据署名的 ML 后门有几个较为凸起的特征。

起首，这类ML后门没法被黑盒所检测，也便是说，假如只能拜候输入及输出，被授予拜候权限的区别器算法没法得悉它们所查询的究竟是原始分类器、还有是带有后门的分类器，这类特征被称之为「黑盒不成检测的后门」。

其次，这类基在数字署名的后门对于受限的黑箱区别器来讲，由于其不成检测，是以也包管了一个分外的属性，即「不成复制性」，对于在不知道后门密钥的人来讲，他们即便不雅察到了例子，也不克不及帮忙他们找到一个新的匹敌性例子。

要增补的是，这类不成复制性具备比力性，于强盛的练习步伐下，假如呆板进修工程师细心不雅察模子的架构，就能看出它被窜改过，包括数字署名机制。

白盒没法检测的后门技能

于论文中，研究职员还有提出了一种白盒没法检测的后门技能。白盒没法检测的后门技能是最强的一种没法检测的后门技能变体。假如对于在接管练习模子不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到的完备显式描写的几率多项式时间算法来讲，及是不成区别的，那末这个后门就是白盒没法检测的。

论文写道：纵然给出返回分类器的权重及架构的完备描写，也没有有用的区别器可以确定该模子是否有后门。白盒后门尤其伤害，由于它们也合用在于线存储库上发布的开源预练习ML模子。

「咱们所有的后门组织都很是高效，」Zamir说，「咱们强烈思疑其他很多呆板进修范式也应该有近似的高效组织。」

研究职员经由过程使其对于呆板进修模子修改使之具备鲁棒性，将不成检测的后门又向前推进了一步。于很多环境下，用户获得一个预先练习好的模子，并对于它们举行一些稍微的调解，例如于分外的数据长进行微调。研究职员证实，一个有优良配景的ML模子将对于这类变化具备鲁棒性。

这一成果与以前所有近似成果的重要区分于在，咱们第一次证实后门没法被检测到，Zamir说。这象征着这不单单是一个开导式要领，而是一个于数学上合理的存眷。

3可托任的呆板进修管道

不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

依赖预练习的模子及于线托管办事正成为呆板进修运用已经经愈来愈遍及，以是这篇论文的发明十分主要。练习年夜型神经收集需要专业常识及年夜型计较资源，而很多构造其实不拥有这些资源，这使患上预练习模子成为一种有吸引力的、和蔼可掬的替换方案。愈来愈多的人最先利用预练习模子，由于预练习模子削减了练习年夜型呆板进修模子的惊人碳萍踪。

呆板进修的安全实践还有没有跟上今朝呆板进修急速扩张的程序。今朝咱们的东西还有没有为新的深度进修缝隙做好预备。

安全解决方案年夜可能是设计用来寻觅步伐给计较机的指令或者步伐及用户的举动模式中的缺陷。但呆板进修的缝隙凡是隐蔽于其数百万及数十亿的参数中，而不是运行它们的源代码中。这使患上歹意举动者很轻易练习出一个被屏蔽的深度进修模子，并将其发布于几个预练习模子的大众资源库之一，而不会触发任何安全警报。

一种今朝于成长中的主要呆板进修安全防备要领是匹敌性 ML 威逼矩阵，这是一个掩护呆板进修管道安全的框架。匹敌性ML威逼矩阵将用在进犯数字基础举措措施的已经知及被记载下的战术及技能与呆板进修体系独有的要领相联合。可以帮忙确定用在练习、测试及办事ML模子的整个基础举措措施、流程及东西的单薄点。

同时，微软及 IBM 等构造正于开发开源东西，旨于帮忙提高呆板进修的安全性及稳健性。

Zamir和其同事所著论文注解，跟着呆板进修于咱们的一样平常糊口中变患上愈来愈主要，随之也涌现了很多安全问题，但咱们还有不具有解决这些安全问题的能力。

「咱们发明，将练习步伐外包然后利用第三方反馈的工具，如许的事情方式永远不成能是安全的。」 Zamir说。

参考链接：

https://bdtechtalks.com/2022/05/23/machine-learning-undetectable-backdoors/

https://arxiv.org/abs/2204.06974 不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

雷峰网(公家号：雷峰网)

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-米兰·(milan)中国官方网站

加入收藏

Tag：米兰·(milan)

上一篇：中国人民抗日战争暨世界反法西斯战争胜利80周年专题（四）

下一篇：暂无

返回列表

米兰·(milan)中国官方网站-不要再「外包」AI 模型了！最新研究发现：有些破坏机器学习模型安全的「后门」无法被检测到

随便看看

产品推荐

哆啦A梦：伴我同行

八月未央

夏洛特烦恼

风再起时

云飞丝路天