[发明专利]卷积神经网络模型的训练方法、训练系统、计算机设备及存储介质在审
申请号: | 202011447327.5 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112364987A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 王卡风;高希彤;须成忠 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 深圳市铭粤知识产权代理有限公司 44304 | 代理人: | 孙伟峰;但念念 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 卷积 神经网络 模型 训练 方法 系统 计算机 设备 存储 介质 | ||
本发明提供了一种卷积神经网络模型的训练方法、训练系统、计算机设备及存储介质,该训练方法包括:根据待压缩神经网络模型的通道数构建激活网络模型;利用训练数据集对激活网络模型进行训练,获得的模型参数作为权重系数;利用权重系数对待压缩神经网络模型进行更新;按照预定的压缩比例对更新后的待压缩神经网络模型进行压缩,获得压缩后的神经网络模型;将本轮训练得到的更新后的神经网络模型作为下一轮训练的待压缩神经网络模型,循环执行多轮训练,直至满足训练终止条件;将满足训练终止条件时所得到的压缩后的神经网络模型作为训练好的神经网络模型,从而在有效降低计算量、提升计算速度的同时确保正确率,知识复用、迁移学习效果较好。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种卷积神经网络模型的训练方法、训练系统、计算机设备及存储介质。
背景技术
CNN模型压缩与加速:卷积神经网络日益增长的深度和尺寸为深度学习在移动端的部署带来了巨大的挑战,CNN模型压缩与加速成为了学术界和工业界都重点关注的研究领域之一。目前常用的模型压缩在网络训练数据集时,把整个CNN网络卷积层通道对应的BN值取出,直接删除BN值小的通道,改变CNN网络结构,以便达到网络压缩目的,这种把CNN网络的卷积层通道彻底移除的静态压缩技术存在以下不足:(1)CNN网络通道不可逆的丢弃,导致网络结构不完整,训练后的模型在相似的数据集上知识复用、迁移学习效果不好;(2)卷积通道对应的神经元好坏与数据集有关,静态的通道保留与删除容易导致训练的模型过拟合。
发明内容
为了解决现有技术的不足,本发明提供一种卷积神经网络模型的训练方法、训练系统、计算机设备及存储介质,在有效降低计算量、提升计算速度的同时确保正确率,知识复用、迁移学习效果较好。
本发明提出的具体技术方案为:提供一种卷积神经网络模型的训练方法,所述训练方法包括:
根据待压缩神经网络模型的卷积层的通道数构建激活网络模型;
利用训练数据集对所述激活网络模型进行训练直至满足第一迭代终止条件,将满足第一迭代终止条件时获得的模型参数作为权重系数;
利用所述权重系数对所述待压缩神经网络模型进行更新,获得更新后的待压缩神经网络模型
按照预定的压缩比例对所述更新后的待压缩神经网络模型进行压缩,获得压缩后的神经网络模型;
将本轮训练得到的压缩后的神经网络模型作为下一轮训练的待压缩神经网络模型,循环执行多轮训练,直至满足训练终止条件;
将满足训练终止条件时所得到的压缩后的神经网络模型作为训练好的神经网络模型。
进一步地,所述根据待压缩神经网络模型的卷积层的通道数构建激活网络模型,包括:
根据待压缩神经网络模型的卷积层的通道数构建全连接层;
设定所述全连接层的权重、标准差和偏置;
将所述全连接层与激活函数层级联获得所述激活网络模型。
进一步地,在按照预定的压缩比例对所述更新后的待压缩神经网络模型进行压缩,获得压缩后的神经网络模型之前,所述训练方法还包括:
利用训练数据集对所述更新后的待压缩神经网络模型进行训练直至满足第二迭代终止条件,将满足第二迭代终止条件时获得的模型作为更新后的待压缩神经网络模型。
进一步地,所述按照预定的压缩比例对所述更新后的待压缩神经网络模型进行压缩,获得压缩后的神经网络模型,包括:
获取所述更新后的待压缩神经网络模型的卷积层的所有通道的参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011447327.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:储能电池柜
- 下一篇:一种便携式大学英语教学装置