[发明专利]基于知识蒸馏的预训练模型集成加速方法及装置有效
| 申请号: | 201911134079.6 | 申请日: | 2019-11-19 |
| 公开(公告)号: | CN110852426B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 宋子文晗;江岭 | 申请(专利权)人: | 成都晓多科技有限公司 |
| 主分类号: | G06N3/0455 | 分类号: | G06N3/0455;G06N3/0442;G06N3/0464;G06N3/08;G06F18/2415;G06N5/025 |
| 代理公司: | 成都睿道专利代理事务所(普通合伙) 51217 | 代理人: | 李红 |
| 地址: | 610000 四川省成都市天府新区华*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 知识 蒸馏 训练 模型 集成 加速 方法 装置 | ||
本发明公开了基于知识蒸馏的预训练模型集成加速方法及装置,该装置应用该方法,该方法包括定义教师模型集团和学生模型;将已标注分类标签的训练数据输入到教师模型集团和学生模型训练,输出每个教师模型对应的似然估计概率值和学生模型似然估计概率值;对教师模型集团输出的似然估计概率值进行池化,输出池化后的似然估计概率值;衡量教师模型集团经过池化后的似然估计概率值与学生模型似然估计概率值间的差异值;对学生模型的参数进行更新,最终得到似然估计概率值最接近教师模型集团池化后的似然估计概率值的学生模型;将得到的学生模型的特征提取器和特征编码器作为学生预训练模型预测待训练的数据,编码成数据特征向量。
技术领域
本发明属于神经网络数据处理技术领域,具体地说,涉及基于知识蒸馏的预训练模型集成加速方法及装置。
背景技术
近年来,卷积神经网络在人脸检测,图片分类,自然语言处理等计算机视觉领域的相关任务中取得了巨大成就。例如,纽约大学的Yann LeCun等人提出将多层卷积神经网络应用于手写数字识别中,Hinton团队使用深度神经网络在ImageNet图像分类比赛中获得压倒性胜利。
随着卷积神经网络的发展,其层次结构的设计越来越复杂,网络参数数量也越来越多,相应的,训练一个优秀的卷积神经网络所需的训练数据集也更加庞大。这样使得运算过程的时间和空间复杂度以及存储代价都大大增加,导致现有的大型卷积神经网络依赖于运算能力极强的高性能处理器和集群服务器。巨大的运算量、时耗和能源消耗使得卷积神经网络很难再计算资源和能源存储有限的移动设备上进行部署,例如手机,智能穿戴设备等。所以,压缩大型神经网络的参数量及降低运算复杂度是一个重要的研究方向。
发明内容
针对现有技术中上述的不足,本发明提供基于知识蒸馏的预训练模型集成加速方法及装置,该方法将运算量庞大的模型作为教师模型,通过对教师模型集团中各个教师模型的似然估计概率值进行池化操作,对不同教师模型的估计结果做一个归纳,使得对数据的分类概率更准确,以便进一步提高对数据的理解能力;通过对教师模型集团池化后的似然估计概率及学生模型的似然估计概率对比得出二者间的差异值,根据该差异值对学生模型进行更新,得到似然估计概率值最接近教师模型集团池化后的似然估计概率值的学生模型,将得到的学生模型的特征提取器和特征编码器作为学生预训练模型,通过对学生模型进行更新的过程将大量教师模型已经学会的知识以及对知识的理解模式迁移到学生模型中,以便既保证复杂教师模型的效果,又保证在真实场景进行训练数据识别时的速度;得到的学生预训练模型将待训练的数据编码成数据特征向量,可以应用在不同的处理任务中,一次处理可以重复应用,减少运算复杂度。
为了达到上述目的,本发明采用的解决方案是:基于知识蒸馏的预训练模型集成加速方法,包括:
定义教师模型集团,所述的教师模型集团包括多个教师模型,每个所述的教师模型均包括第一特征提取器、第一特征编码器和第一分类器,所述的第一特征提取器包括卷积网络特征提取器和长短期记忆网络特征提取器与卷积网络特征提取器的结合;定义学生模型,所述的学生模型包括第二特征提取器、第二特征编码器和第二分类器;教师模型集团包括大量的已经经过训练,具备优秀识别能力的教师模型,教师模型的第一特征提取器和第一编码器都是经过已标注标签的训练数据训练迭代过的,而学生模型则是原始的,未经过训练的第二特征提取器和第二特征编码器。
将已标注分类标签的训练数据分别输入到教师模型集团和学生模型训练,学生模型输出似然估计概率值;教师模型集团输出每个教师模型对应的似然估计概率值;教师模型集团输出的是每个教师模型的输出结果,各个结果可以相互补全映证对分类的判断结果,减少判断失误的情况,提高预测的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都晓多科技有限公司,未经成都晓多科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911134079.6/2.html,转载请声明来源钻瓜专利网。





