[发明专利]一种基于重要数据进行知识蒸馏的方法在审
| 申请号: | 202211230860.5 | 申请日: | 2022-10-09 |
| 公开(公告)号: | CN115600668A | 公开(公告)日: | 2023-01-13 |
| 发明(设计)人: | 崔凯;张帆 | 申请(专利权)人: | 南京工业大学;绍兴兰红智能科技有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06V10/82;G06V10/44 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 211816 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 重要 数据 进行 知识 蒸馏 方法 | ||
本发明涉及神经网络模型优化领域,具体涉及一种根据训练数据对测试数据的影响力分数来挑选重要数据从而进行知识蒸馏的模型以及方法,选取重要的训练数据时候我们采取利用记录模型参数梯度下降的方法来量化数据对模型的影响,通过将训练数据和测试数据对模型参数梯度下降的方向和距离做点积得到训练数据对测试数据的影响力分数。知识蒸馏通将一个网络模型结构较为复杂、网络性能较好的模型作为教师模型,将另一个网络模型结构较为简单、网络性能较差的模型作为学生模型,然后在学生模型训练的时候先将训练数据放入到教师模型中产生关于训练数据的知识,然后再利用这个知识来指导学生模型的训练,从而提高学生模型的性能。本发明能在模型复杂度较小、训练数据较少的情况下达到原始模型的性能,而且能够有效降低模型的运算成本,使得最后的模型能够在低算力的设备上运行。
技术领域
本发明涉及一种根据训练数据对测试数据的影响力分数来挑选重要数据从而进行知识蒸馏的模型以及方法,属于神经网络模型优化领域。
背景技术
近些年来,深度神经网络(DNN)在各个领域都取得了较大的成功,因为神经网络能从训练数据中获取大量的知识,即完成特定任务所需要的特征量,现实生活中的一些复杂的任务,如:目标识别,图像分类,机器翻译等推动了DNN的发展。而在DNN的发展过程中,增大网络深度、增加模型参数数量和扩张训练数据的规模似乎成为一个主流。
在网络层数方面,DNN也从最开始的几层(LeNet-5)到现在的上百层(ResNet-152),模型深度的增加可以使逼近函数的效果更好,特征的抽象程度越高,因此可以在某些特定任务上效果越好;在模型参数方面,从一开始的LeNet、Alexnet、ResNet开始,模型参数的数量逐渐增加,2017年Transformer结构的提出,使得深度学习模型参数数量突破了1亿,到了BERT网络模型的提出,使得参数量首次超过3亿规模;在数据集方面,以GPT网络系列为例,GPT-1的数据集使用了1万本书的BookCorpus,25亿单词量;而到GPT-3的时候,数据集将语料规模扩大到570GB的CC数据集(4千亿词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词)。可以看出,现在的DNN的发展正在向更深的层数,更多的参数和更大量的训练数据方向不断靠近。
但是DNN也不是单纯的比网络深度,参数数量,数据量大小。一方面,随着模型规模的不断变大,训练所付出的成本也开始呈现指数增加;另一方面,当模型规模足够大时,模型性能的提升也开始变得更加困难,如果想让测试准确度提升1%,可能就需要更多的数据集增量和计算增量。因此,寻找一种能够在小模型,低数据量下还能够保持原始模型性能的方法成为一个亟待解决的问题。
发明内容
本发明的目的是针对DNN在发展过程中的模型结构不断加深、模型参数不断变多、训练数据量不断增大而导致的训练成本大幅度上升且模型性能提高较小的问题,提出了一种基于部分重要训练样本来进行知识蒸馏的方法,利用不同的训练样本对测试样本在模型准确度方面的影响程度挑选出一部分含有重要知识的训练样本,然后再将这部分训练样本输入到原始的教师模型(T-Net)中产生重要信息,最后再通过知识蒸馏将这部分重要信息传递给学生模型(S-Net)。
本发明为解决上述问题采用以下技术方案:
一种基于重要数据进行知识蒸馏的方法,该方法首先根据训练数据对测试数据的影响力分数来挑选出影响力分数排名靠前的训练数据,然后再利用这一部分训练数据来进行知识蒸馏,其中:
选取重要的训练数据时候我们采取利用记录模型参数梯度下降的方法来量化数据对模型的影响,通过将训练数据和测试数据对模型参数梯度下降的方向和距离做点积运算得到训练数据对测试数据的影响力分数。
知识蒸馏通常将一个较为复杂、网络性能较好的神经网络模型作为T-Net,将另一个结构较为简单、网络性能较差的神经网络模型作为S-Net;然后在S-Net训练的时候先将训练数据放入到T-Net中产生关于训练数据的知识,然后再利用这些知识来指导S-Net的训练,从而提高S-Net的性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业大学;绍兴兰红智能科技有限公司,未经南京工业大学;绍兴兰红智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211230860.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





