[发明专利]卷积神经网络模型的训练方法、训练系统、计算机设备及存储介质在审

申请号：	202011447327.5	申请日：	2020-12-09
公开（公告）号：	CN112364987A	公开（公告）日：	2021-02-12
发明（设计）人：	王卡风;高希彤;须成忠	申请（专利权）人：	中国科学院深圳先进技术研究院
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	深圳市铭粤知识产权代理有限公司 44304	代理人：	孙伟峰;但念念
地址：	518055 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	卷积神经网络模型训练方法系统计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种卷积神经网络模型的训练方法、训练系统、计算机设备及存储介质，该训练方法包括：根据待压缩神经网络模型的通道数构建激活网络模型；利用训练数据集对激活网络模型进行训练，获得的模型参数作为权重系数；利用权重系数对待压缩神经网络模型进行更新；按照预定的压缩比例对更新后的待压缩神经网络模型进行压缩，获得压缩后的神经网络模型；将本轮训练得到的更新后的神经网络模型作为下一轮训练的待压缩神经网络模型，循环执行多轮训练，直至满足训练终止条件；将满足训练终止条件时所得到的压缩后的神经网络模型作为训练好的神经网络模型，从而在有效降低计算量、提升计算速度的同时确保正确率，知识复用、迁移学习效果较好。

技术领域

本发明涉及机器学习技术领域，尤其涉及一种卷积神经网络模型的训练方法、训练系统、计算机设备及存储介质。

背景技术

CNN模型压缩与加速：卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战，CNN模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。目前常用的模型压缩在网络训练数据集时，把整个CNN网络卷积层通道对应的BN值取出，直接删除BN值小的通道，改变CNN网络结构，以便达到网络压缩目的，这种把CNN网络的卷积层通道彻底移除的静态压缩技术存在以下不足：(1)CNN网络通道不可逆的丢弃，导致网络结构不完整，训练后的模型在相似的数据集上知识复用、迁移学习效果不好；(2)卷积通道对应的神经元好坏与数据集有关，静态的通道保留与删除容易导致训练的模型过拟合。

发明内容

为了解决现有技术的不足，本发明提供一种卷积神经网络模型的训练方法、训练系统、计算机设备及存储介质，在有效降低计算量、提升计算速度的同时确保正确率，知识复用、迁移学习效果较好。

本发明提出的具体技术方案为：提供一种卷积神经网络模型的训练方法，所述训练方法包括：

根据待压缩神经网络模型的卷积层的通道数构建激活网络模型；

利用训练数据集对所述激活网络模型进行训练直至满足第一迭代终止条件，将满足第一迭代终止条件时获得的模型参数作为权重系数；

利用所述权重系数对所述待压缩神经网络模型进行更新，获得更新后的待压缩神经网络模型

按照预定的压缩比例对所述更新后的待压缩神经网络模型进行压缩，获得压缩后的神经网络模型；

将本轮训练得到的压缩后的神经网络模型作为下一轮训练的待压缩神经网络模型，循环执行多轮训练，直至满足训练终止条件；

将满足训练终止条件时所得到的压缩后的神经网络模型作为训练好的神经网络模型。

进一步地，所述根据待压缩神经网络模型的卷积层的通道数构建激活网络模型，包括：

根据待压缩神经网络模型的卷积层的通道数构建全连接层；

设定所述全连接层的权重、标准差和偏置；