[发明专利]神经网络模型的训练和应用方法、装置、系统及存储介质在审
申请号: | 201811331677.8 | 申请日: | 2018-11-09 |
公开(公告)号: | CN111178491A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 刘俊杰;陈则玮;温东超;高红星;陶玮 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 迟军;李艳丽 |
地址: | 日本国东京都*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 训练 应用 方法 装置 系统 存储 介质 | ||
本发明提供一种神经网络模型的训练和应用方法、装置、系统及存储介质。所述训练方法包括:确定提供用于训练的信息的第一网络模型和待训练的第二网络模型;为第一网络模型中的至少一层设置降尺度层,其中,所述降尺度层的滤波器数量和滤波器核与第二网络模型中待训练的层的滤波器数量和滤波器核相同;将所述降尺度层的滤波器参数作为训练信息发送给所述第二网络模型。通过该训练方法,可在第一网络模型中用于训练的层的尺度与第二网络模型中的待训练的层的尺度不相同时也能进行训练,且丢失的数据量较少。
技术领域
本发明涉及深度神经网络(Deep Neural Networks,DNN)的建模领域,尤其涉及一种利用已训练完成的深度神经网络模型来训练其他深度神经网络模型的方法。
背景技术
深度神经网络模型是在图像处理领域,尤其是在图像分类、目标检测和图像分割等领域中已成功应用的网络模型。但是,由于深度神经网络模型通常具有较复杂的网络架构且包含大量的模型参数,因此深度神经网络模型有计算量大、处理速度慢的缺点。这使得深度神经网络很难应用在实时业务中,特别是计算能力较差的嵌入式设备的实时业务中。
知识蒸馏(Knowledge Distillation,KD)技术是为了解决上述问题而提出的一种对深度神经网络模型进行压缩和加速的技术。KD技术利用从已训练完成的复杂网络模型中提取出的信息(例如,网络输出值和特征图(Feature Map)等)来训练简单网络模型,使简单网络模型的输出近似于复杂网络模型的输出(即,简单网络模型的输出与复杂网络模型的输出之间的残差小),然后利用训练后的简单网络模型来替代复杂网络模型在实时业务中的应用。但是,在KD技术中,只有在复杂网络模型中用于提取特征图的层的尺度(scale)与简单网络模型中被训练的层的尺度相同的情况下,也就是从复杂网络模型中提取出的特征图的大小与简单网络模型中待训练的层的特征图的大小相同的情况下,才能利用从复杂网络模型中提取出的特征图对简单网络模型进行训练。换句话说,简单网络模型中的待训练的层的尺度受复杂网络模型的层的尺度的限制。
为了解决KD技术中存在的问题,提出了FITNets技术。FITNets技术的主要内容包括:在简单网络模型中为待训练的层设置提示层(hint layer),如果待训练的层的尺度小于复杂网络模型中的用于训练的层的尺度,则利用hint layer对待训练的层进行升尺度(up-scale)处理。训练结束之后,再利用hint layer对待训练的层进行降尺度(down-scale)处理。
虽然上述FITNets能够在用于训练的层的尺度与待训练的层的尺度不同时实现KD训练,但是,FITNets中的升尺度处理和降尺度处理这两次近似估计处理会造成两次数据丢失,使训练结果的精度下降。
发明内容
本发明旨在提供一种对多层神经网络模型的训练方案,相较于FITNets技术,可在复杂网络中的用于训练的层的尺度和简单网络中的待训练的层尺度不同的情况下执行KD训练,且能减少数据丢失。
根据本发明的一方面,提供一种多层神经网络模型的训练方法,所述训练方法包括:确定第一网络模型和第二网络模型,所述第一网络模型提供用于对所述第二网络模型进行训练的信息;为第一网络模型中的至少一层设置降尺度层,其中,所述降尺度层的滤波器数量和滤波器核与第二网络模型中待训练的层的滤波器数量和滤波器核相同;将所述降尺度层的滤波器参数作为训练信息发送给所述第二网络模型。
根据本发明的另一方面,提供一种多层神经网络模型的训练系统,所述训练系统包括:服务器,其存储至少一个第一网络模型,所述第一网络模型提供用于对第二网络模型进行训练的信息,所述服务器用于为所述第一网络模型中的至少一层设置降尺度层,并将所述降尺度层的滤波器参数作为训练信息并输出,其中,所述降尺度层的滤波器数量和滤波器核与第二网络模型中的待训练的层的滤波器数量和滤波器核相同;终端,其存储所述第二网络模型,所述终端用于利用服务器输出的训练信息对所述第二网络模型中的待训练的层进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811331677.8/2.html,转载请声明来源钻瓜专利网。