(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111324429.2
(22)申请日 2021.11.10
(71)申请人 西安邮电大 学
地址 710061 陕西省西安市长安 南路563号
(72)发明人 孙家泽 温苏雷 李娟 王曙燕
王小银
(51)Int.Cl.
G06F 30/27(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于陷阱式集成网络的对抗样本防御
方法
(57)摘要
本发明针对深度神经网络鲁棒性优化问题,
公开了一种基于陷阱式集成网络的对抗样本防
御方法, 属于深度学习和人工智 能安全领域。 首
先根据实际应用场景、 基础网络模 型和训练数据
集来选择不同的陷阱数据集。 然后基于基础网络
模型生成并训练增广输出类别的陷阱网络, 在准
确率和模型多样性的标准下进行增广输出类别
的陷阱网络的筛选, 最终构成陷阱式集成网络。
随后对陷阱式集成 网络进行对抗样 本的生成, 并
利用筛选后的对抗样本进行对抗训练以持续地
提高陷阱式集成 网络的鲁棒性。 本发 明提出了一
种高效的对抗样本防御方法, 是一种新的模型扩
充方法, 同时扩大了模型的防御范围, 提高了模
型的鲁棒 性。
权利要求书1页 说明书4页 附图2页
CN 113987955 A
2022.01.28
CN 113987955 A
1.一种基于陷阱式集成网络的对抗样本防御方法, 其特 征包括以下步骤:
步骤一: 选定一个适用于深度神经网络分类场景的高精度图像分类器作为基础模型M,
其分类的类别总数为Z, 收集类别总数为X的非目标类别的陷阱数据C1, C2, ..., CX, 要求这些
数据具有以下特征: 1)陷阱数据的增加对原始训练数据集D的分类精度的下降影响不超过 ‑
5%的相对误差, 2)陷阱数据可为数据空间带来新的图像特征, 根据以上数据要求, 陷阱数
据可从任意现有的其他类别数据集中筛选, 也可根据实际应用场景制作业务预备填充的类
别数据作为 新数据集;
步骤二: 扩大基础模型M的输出层个数, 并向训练集中添加不同类别的陷阱数据C1,
C2, ..., CX, 最终训练产 生N个增广输出类别的陷阱模型M1, M2, ..., MN, 其中增广输出类别的
陷阱模型数量N等于陷阱数据类别X, 具体地, 增广输出类别的陷阱模型M1是由原始训练数
据集D和陷阱数据C1组成的新训练集训练学习所产生的, 增广输出类别的陷阱模型MN是由原
始训练数据集D和陷阱类别数据C1, C2, ..., CX组成的新训练集训练学习所产生的;
步骤三: 根据终端的内存大小, 设置终端最大可容纳的增广输出类别的陷阱模型的数
量K;
步骤四: 对生成的增广输出类别的陷阱模型M1, M2, ..., MN进行筛选, 具体地: 1)舍弃对
原数据D分类精度下降大于 ‑5%相对误差的增广输出类别的陷阱模型; 2)利用TSNE降维技
术对增广输出类别的陷阱模 型最后一层隐藏层输出的logits进 行相似度估计, 剔除相似度
较高的增广输出类别的陷阱模 型; 3)利用Wasserstein距离, 根据增广输出类别的陷阱模 型
最后一层隐藏层输出的logits对网络学习的数据分布空间进 行建模, 并根据不同类别之间
的Wasserstein距离筛选并舍弃数据分布相似的增广输出类别的陷阱模型; 4)当剩余的增
广输出类别的陷阱模型个数V大于K, 则构建行数为K, 列数为(Z+X ‑1)的模型数组P, 其中模
型数组P的每行为增广输出类别的陷阱模型输出层的logits向量, 该logits向量需经L2归
一化并去除logits中正确类别的元素, 根据 古典概型, 构 成
个不同的数组P, 选择行列式
det(PTP)最大的数组P中的增广输出类别的陷 阱模型作为最终防御的集成网络组Pfinal, 具
体地, 对长度小于(Z+X ‑1)的经过处理的增广输出类别的陷阱模型输出层的logits向量进
行后置位补0的操作, 当剩余的增广输出类别的陷阱模型个数V小于K, 则选择这V个陷阱模
型为最终防御的集成网络组Pfinal;
步骤五: 使用Pfinal中的增广输出类别的陷阱模型, 根据输出层的数据类别数降序排序
搭建陷阱式集成网络, 具体地, 当输入样本经过集成网络模型, 样本被 分类为陷阱类样 本的
数量大于阈值, 则认为输入样本为对抗样本, 其中记分类为目标类别的对抗样本为AEs;
步骤六: 将AEs和原数据集一起构成新的训练集, 并使用该训练集对陷阱式集成网络内
的增广输出类别的陷阱模型进行对抗训练, 重复步骤二到五, 直到陷阱式集成网络的精确
度不再提升 。权 利 要 求 书 1/1 页
2
CN 113987955 A
2一种基于陷阱式集成网 络的对抗样本防御方 法
技术领域
[0001]本发明属于深度学习和人工智能安全领域,具体涉及神经网络模型的扩充和神经
网络模型鲁棒 性的优化, 提出了一种基于陷阱式集成网络的对抗样本防御方法。
背景技术
[0002]深度神经网络近年来在诸如图像分类, 自然语言处理等领域取得了巨大的成功,
并在自动 驾驶, 人脸识别, 医疗诊断等安全性要求极高的领域有了飞速的发展。 然而研究表
明, 高精准度的深度神经网络模 型极易受到对抗样本的攻击, 并导致模型产生误判。 这一安
全漏洞对深度神经网络的发展和应用造成了巨大的挑战。 对抗样本是一种攻击者对正常样
本添加精心制作的微小对抗扰动后生成的数据样本。 对抗扰动无法被人眼所察觉, 所以从
人类视觉的角度无法区分干净样本和对抗样本。 然而, 对抗样本会影响模型内部的特征提
取, 进而影响 并改变模型最 终的分类判断, 最 终导致模型的分类出错。 所以提高深度神经网
络模型对对抗样本攻击的防御能力, 提高深度神经网络模型 的鲁棒性, 对深度神经网络的
发展和应用至关重要。
[0003]针对这一问题, 研究人员为了提高神经网络模型对对抗样本 的鲁棒性, 围绕白盒
攻击和黑盒攻击提出了一系 列防御方法。 其主要 可分为: 对抗攻击的检测、 输入 数据的预 处
理和模型鲁棒性的提升。 其中一种 行之有效的方法就是借鉴集成学习的思想, 利用不同网
络模型对原 始数据分布的不同理解构成集成网络对 对抗样本进行防御。
发明内容
[0004]基于陷阱式集成网络的对抗样本防御方法, 其一是利用基础模型M, 通过修改输出
层类别数目和增加 其他特征类别的陷阱数据集, 在M的基础上进行网络模型 的扩充生成陷
阱模型, 最 终将不同的陷阱模型组合搭建为陷阱式集成网络。 目的是扩充模型特征空间, 增
大模型学习的数据分布的类间距离并缩小 数据分布的类内距离, 从整体上提高模型的鲁棒
性。 同时设置陷阱类别数据, 利用陷阱类别数据起到对对抗样本防御, 过滤的作用。 其二是
以整体陷阱式集成网络为目标生成对抗样本, 并利用生成的非陷阱类别的高质量对抗样本
进行对抗训练。 其 目标是扩充陷阱模型对数据分布的理解、 提高陷阱模型对白盒攻击的防
御力、 使得攻击方法更易 导向陷阱类别, 从而在整体上提高 陷阱式集成网络的鲁棒 性。
[0005]本发明为 一种对抗样本的防御方法, 其特 征在于包括以下步骤:
[0006]步骤一: 选定一个适用于深度神经网络分类场景的高精度图像分类器作为基础模
型M, 其分类的类别总数为Z, 收集类别总数为X的非目标类别的陷阱数据C1, C2, ..., CX, 要求
这些数据具有以下特征: 1)陷阱数据的增加对原始训练数据集D的分类精度的下降影响不
超过‑5%的相对误差, 2)陷阱数据可为数据空间带来新的图像特征, 根据以上数据要求, 陷
阱数据可从任意现有的其他类别数据集中筛选, 也可根据实际应用场景制作业务预备填充
的类别数据作为 新数据集;
[0007]步骤二: 扩大基础模型M的输出层个数, 并向训练集中添加不同类别的陷阱数据说 明 书 1/4 页
3
CN 113987955 A
3
专利 一种基于陷阱式集成网络的对抗样本防御方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:15:01上传分享