专利 一种基于陷阱式集成网络的对抗样本防御方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111324429.2 (22)申请日 2021.11.10 (71)申请人西安邮电大学地址 710061 陕西省西安市长安南路563号 (72)发明人孙家泽　温苏雷　李娟　王曙燕　王小银　 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于陷阱式集成网络的对抗样本防御方法 (57)摘要本发明针对深度神经网络鲁棒性优化问题，公开了一种基于陷阱式集成网络的对抗样本防御方法，属于深度学习和人工智能安全领域。首先根据实际应用场景、基础网络模型和训练数据集来选择不同的陷阱数据集。然后基于基础网络模型生成并训练增广输出类别的陷阱网络，在准确率和模型多样性的标准下进行增广输出类别的陷阱网络的筛选，最终构成陷阱式集成网络。随后对陷阱式集成网络进行对抗样本的生成，并利用筛选后的对抗样本进行对抗训练以持续地提高陷阱式集成网络的鲁棒性。本发明提出了一种高效的对抗样本防御方法，是一种新的模型扩充方法，同时扩大了模型的防御范围，提高了模型的鲁棒性。权利要求书1页说明书4页附图2页 CN 113987955 A 2022.01.28 CN 113987955 A 1.一种基于陷阱式集成网络的对抗样本防御方法，其特征包括以下步骤：步骤一：选定一个适用于深度神经网络分类场景的高精度图像分类器作为基础模型M，其分类的类别总数为Z，收集类别总数为X的非目标类别的陷阱数据C1， C2， ...， CX，要求这些数据具有以下特征： 1)陷阱数据的增加对原始训练数据集D的分类精度的下降影响不超过 ‑ 5％的相对误差， 2)陷阱数据可为数据空间带来新的图像特征，根据以上数据要求，陷阱数据可从任意现有的其他类别数据集中筛选，也可根据实际应用场景制作业务预备填充的类别数据作为新数据集；步骤二：扩大基础模型M的输出层个数，并向训练集中添加不同类别的陷阱数据C1， C2， ...， CX，最终训练产生N个增广输出类别的陷阱模型M1， M2， ...， MN，其中增广输出类别的陷阱模型数量N等于陷阱数据类别X，具体地，增广输出类别的陷阱模型M1是由原始训练数据集D和陷阱数据C1组成的新训练集训练学习所产生的，增广输出类别的陷阱模型MN是由原始训练数据集D和陷阱类别数据C1， C2， ...， CX组成的新训练集训练学习所产生的；步骤三：根据终端的内存大小，设置终端最大可容纳的增广输出类别的陷阱模型的数量K；步骤四：对生成的增广输出类别的陷阱模型M1， M2， ...， MN进行筛选，具体地： 1)舍弃对原数据D分类精度下降大于 ‑5％相对误差的增广输出类别的陷阱模型； 2)利用TSNE降维技术对增广输出类别的陷阱模型最后一层隐藏层输出的logits进行相似度估计，剔除相似度较高的增广输出类别的陷阱模型； 3)利用Wasserstein距离，根据增广输出类别的陷阱模型最后一层隐藏层输出的logits对网络学习的数据分布空间进行建模，并根据不同类别之间的Wasserstein距离筛选并舍弃数据分布相似的增广输出类别的陷阱模型； 4)当剩余的增广输出类别的陷阱模型个数V大于K，则构建行数为K，列数为(Z+X ‑1)的模型数组P，其中模型数组P的每行为增广输出类别的陷阱模型输出层的logits向量，该logits向量需经L2归一化并去除logits中正确类别的元素，根据古典概型，构成个不同的数组P，选择行列式 det(PTP)最大的数组P中的增广输出类别的陷阱模型作为最终防御的集成网络组Pfinal，具体地，对长度小于(Z+X ‑1)的经过处理的增广输出类别的陷阱模型输出层的logits向量进行后置位补0的操作，当剩余的增广输出类别的陷阱模型个数V小于K，则选择这V个陷阱模型为最终防御的集成网络组Pfinal；步骤五：使用Pfinal中的增广输出类别的陷阱模型，根据输出层的数据类别数降序排序搭建陷阱式集成网络，具体地，当输入样本经过集成网络模型，样本被分类为陷阱类样本的数量大于阈值，则认为输入样本为对抗样本，其中记分类为目标类别的对抗样本为AEs；步骤六：将AEs和原数据集一起构成新的训练集，并使用该训练集对陷阱式集成网络内的增广输出类别的陷阱模型进行对抗训练，重复步骤二到五，直到陷阱式集成网络的精确度不再提升。权　利　要　求　书 1/1 页 2 CN 113987955 A 2一种基于陷阱式集成网络的对抗样本防御方法技术领域 [0001]本发明属于深度学习和人工智能安全领域,具体涉及神经网络模型的扩充和神经网络模型鲁棒性的优化，提出了一种基于陷阱式集成网络的对抗样本防御方法。背景技术 [0002]深度神经网络近年来在诸如图像分类，自然语言处理等领域取得了巨大的成功，并在自动驾驶，人脸识别，医疗诊断等安全性要求极高的领域有了飞速的发展。然而研究表明，高精准度的深度神经网络模型极易受到对抗样本的攻击，并导致模型产生误判。这一安全漏洞对深度神经网络的发展和应用造成了巨大的挑战。对抗样本是一种攻击者对正常样本添加精心制作的微小对抗扰动后生成的数据样本。对抗扰动无法被人眼所察觉，所以从人类视觉的角度无法区分干净样本和对抗样本。然而，对抗样本会影响模型内部的特征提取，进而影响并改变模型最终的分类判断，最终导致模型的分类出错。所以提高深度神经网络模型对对抗样本攻击的防御能力，提高深度神经网络模型的鲁棒性，对深度神经网络的发展和应用至关重要。 [0003]针对这一问题，研究人员为了提高神经网络模型对对抗样本的鲁棒性，围绕白盒攻击和黑盒攻击提出了一系列防御方法。其主要可分为：对抗攻击的检测、输入数据的预处理和模型鲁棒性的提升。其中一种行之有效的方法就是借鉴集成学习的思想，利用不同网络模型对原始数据分布的不同理解构成集成网络对对抗样本进行防御。发明内容 [0004]基于陷阱式集成网络的对抗样本防御方法，其一是利用基础模型M，通过修改输出层类别数目和增加其他特征类别的陷阱数据集，在M的基础上进行网络模型的扩充生成陷阱模型，最终将不同的陷阱模型组合搭建为陷阱式集成网络。目的是扩充模型特征空间，增大模型学习的数据分布的类间距离并缩小数据分布的类内距离，从整体上提高模型的鲁棒性。同时设置陷阱类别数据，利用陷阱类别数据起到对对抗样本防御，过滤的作用。其二是以整体陷阱式集成网络为目标生成对抗样本，并利用生成的非陷阱类别的高质量对抗样本进行对抗训练。其目标是扩充陷阱模型对数据分布的理解、提高陷阱模型对白盒攻击的防御力、使得攻击方法更易导向陷阱类别，从而在整体上提高陷阱式集成网络的鲁棒性。 [0005]本发明为一种对抗样本的防御方法，其特征在于包括以下步骤： [0006]步骤一：选定一个适用于深度神经网络分类场景的高精度图像分类器作为基础模型M，其分类的类别总数为Z，收集类别总数为X的非目标类别的陷阱数据C1， C2， ...， CX，要求这些数据具有以下特征： 1)陷阱数据的增加对原始训练数据集D的分类精度的下降影响不超过‑5％的相对误差， 2)陷阱数据可为数据空间带来新的图像特征，根据以上数据要求，陷阱数据可从任意现有的其他类别数据集中筛选，也可根据实际应用场景制作业务预备填充的类别数据作为新数据集； [0007]步骤二：扩大基础模型M的输出层个数，并向训练集中添加不同类别的陷阱数据说　明　书 1/4 页 3 CN 113987955 A 3

专利 一种基于陷阱式集成网络的对抗样本防御方法

专利一种基于陷阱式集成网络的对抗样本防御方法