[发明专利]一种预训练模型知识蒸馏的安全性增强方法在审

申请号：	202110080731.1	申请日：	2021-01-21
公开（公告）号：	CN112884150A	公开（公告）日：	2021-06-01
发明（设计）人：	杨建磊;郭新	申请（专利权）人：	北京航空航天大学
主分类号：	G06N5/02	分类号：	G06N5/02;G06N3/04;G06N3/08
代理公司：	北京航智知识产权代理事务所(普通合伙) 11668	代理人：	黄川;史继颖
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种训练模型知识蒸馏安全性增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种预训练模型知识蒸馏的安全性增强方法，在预训练模型知识蒸馏的过程中或知识蒸馏之前，建立学生模型结构搜索空间，由若干神经网络计算层及其参数的可能组合方式、计算层之间若干可能的连接方式组成，以安全性相关指标作为神经网络结构搜索的依据，使用神经网络结构搜索技术确定学生模型的结构。本发明提供的上述预训练模型知识蒸馏的安全性增强方法，可以显著地增强预训练模型知识蒸馏后学生模型的安全性，提高学生模型对于神经网络对抗攻击的防御能力，降低模型使用中的安全风险，同时兼顾预训练模型知识蒸馏方法的准确性和高效性。

技术领域

本发明涉及深度学习、知识蒸馏以及神经网络安全性技术领域，尤其涉及一种预训练模型知识蒸馏的安全性增强方法。

背景技术

预训练模型是指训练过程包括预训练和微调两个阶段的深度学习模型，其中比较有代表性的是自然语言处理领域的预训练语言模型。预训练语言模型是通过在大量无标注自然语言数据上对人工神经网络进行预训练获得一个语言模型，再对这个语言模型在特定下游任务的有标注数据集上进行微调形成的任务相关推理模型。

知识蒸馏方法是在训练模型时，使用一个较大的经过训练的模型作为老师模型，训练学生模型模仿老师模型的行为，从而将老师模型中的知识转移到学生模型中的技术。知识蒸馏方法包括但不限于，通过老师模型对训练样本的推理，产生每个样本在每个分类上的预测概率作为软标签，使用软标签对特定结构的学生模型进行训练。知识蒸馏方法可以用于将大型模型中的知识迁移到较小的模型中，达到模型压缩、轻量化的效果。

此前研究发现，神经网络容易受到对抗攻击，对输入数据进行很小的、不易被人注意的修改可能会使神经网络做出完全不同的预测，从而产生安全隐患。这不仅限制了神经网络在高安全性要求的环境中的应用，也降低了神经网络作为数据分析、处理工具的可靠性。神经网络安全性是指神经网络模型对于对抗攻击的抵抗能力。现有的预训练模型知识蒸馏技术并没有关注神经网络安全性。

发明内容

有鉴于此，本发明提供了一种预训练模型知识蒸馏的安全性增强方法，用以显著地增强预训练模型知识蒸馏后学生模型的安全性，同时兼顾模型的准确性和高效性。

本发明提供的一种预训练模型知识蒸馏的安全性增强方法，包括如下步骤：

S1：获取训练数据集，包括多个第一样本和各所述第一样本的分类标签；

S2：获得经过预训练和微调后的预训练模型，作为知识蒸馏中的老师模型；

S3：建立学生模型结构搜索空间，包括若干种类的神经网络计算层、各神经网络计算层的参数以及各神经网络计算层间的连接方式；

S4：在所述学生模型结构搜索空间中，使用所述训练数据集，以学生模型结构在使用所述老师模型知识蒸馏后得到的待评估的学生模型的模型安全性、模型推理预测效果以及模型的存储和计算效率综合作为评价标准，采用神经网络结构搜索方法对学生模型结构进行搜索，得到所述评价标准下最优的学生模型结构；其中，模型安全性以待评估的学生模型在使用神经网络对抗攻击方法产生的对抗样本集上的准确率作为评价标准；

S5：使用预训练模型知识蒸馏方法对最优的学生模型结构进行知识蒸馏，得到完整的学生模型。

在一种可能的实现方式中，在本发明提供的上述预训练模型知识蒸馏的安全性增强方法中，步骤S4，在所述学生模型结构搜索空间中，使用所述训练数据集，以学生模型结构在使用所述老师模型知识蒸馏后得到的待评估的学生模型的模型安全性、模型推理预测效果以及模型的存储和计算效率综合作为评价标准，采用神经网络结构搜索方法对学生模型结构进行搜索，得到所述评价标准下最优的学生模型结构，具体包括：

S41：获取验证数据集，包括多个第二样本和各所述第二样本的分类标签；

S42：在所述学生模型结构搜索空间中选取若干学生模型结构，构成一个种群，作为搜索起点；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110080731.1/2.html，转载请声明来源钻瓜专利网。

上一篇：连接装置及用于直接监测管道内管水平位移的设备和方法
下一篇：一种柔性电路板加工方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N5-00 利用基于知识的模式的计算机系统
G06N5-02 .知识表达
G06N5-04 .推理方法或设备

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种预训练模型知识蒸馏的安全性增强方法在审

专利文献下载