[发明专利]神经网络模型的压缩方法及相关装置在审
申请号: | 202010711176.3 | 申请日: | 2020-07-22 |
公开(公告)号: | CN112749798A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 沈力;黄浩智;王璇;刘威 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 魏学昊 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 压缩 方法 相关 装置 | ||
本申请提供一种神经网络模型的压缩方法及相关装置,属于人工智能技术领域。该方法包括:利用神经网络模型的损失函数和零范数构建第一压缩模型,所述零范数指示所述神经网络模型中模型参数的稀疏度;将所述零范数等价处理为连续优化项,得到与所述第一压缩模型等价的第二压缩模型,所述连续优化项以所述稀疏度的控制参数为自变量,所述连续优化项连续优化的目标值等价于所述零范数;同步训练所述神经网络模型及所述第二压缩模型,以使得所述控制参数根据所述神经网络模型的训练误差稀疏化更新所述模型参数。本申请有效提升压缩后的神经网络模型的精度,提升神经网络模型的压缩可靠性。
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种神经网络模型的压缩方法及相关装置。
背景技术
深度学习在计算机视觉等领域被大量应用,往往大型的神经网络模型具有更高的准确率和更强的泛化能力,但是模型过大导致了大型的神经网络无法部署在小型服务器和边缘设备上,如智能手机,树莓派,摄像头,智能手表等设备上。模型压缩技术可以显著的减小神经网络的参数量以及提高神经网络模型在服务器和边缘设备上的推断速度。
目前,存在将模型压缩问题建模成为带有零范数正则的压缩模型,然后利用不同的近似技巧来逼近零范数,使得压缩模型训练的时候可以进行反向传播,但是采用逼近零范数的方法会带来近似误差,导致压缩后的神经网络模型的精度难以保证,神经网络模型的压缩可靠性较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请实施例的目的在于提供一种神经网络模型的压缩方法及装置,其能够有效提升压缩后的神经网络模型的精度,提升神经网络模型的压缩可靠性。
根据本申请的一个实施例,一种神经网络模型的压缩方法可以包括:利用神经网络模型的损失函数和零范数构建第一压缩模型,所述零范数指示所述神经网络模型中模型参数的稀疏度;将所述零范数等价处理为连续优化项,得到与所述第一压缩模型等价的第二压缩模型,所述连续优化项以所述稀疏度的控制参数为自变量,所述连续优化项连续优化的目标值等价于所述零范数;同步训练所述神经网络模型及所述第二压缩模型,以使得所述控制参数根据所述神经网络模型的训练误差稀疏化更新所述模型参数。
根据本申请的一个实施例,一种神经网络模型的压缩装置可以包括:构建模块,用于利用神经网络模型的损失函数和零范数构建第一压缩模型,所述零范数指示所述神经网络模型中模型参数的稀疏度;处理模块,用于将所述零范数等价处理为连续优化项,得到与所述第一压缩模型等价的第二压缩模型,所述连续优化项以所述稀疏度的控制参数为自变量,所述连续优化项连续优化的目标值等价于所述零范数;压缩模块,用于同步训练所述神经网络模型及所述第二压缩模型,以使得所述控制参数根据所述神经网络模型的训练误差稀疏化更新所述模型参数。
在本申请的一些实施例中,所述处理模块被配置为:将所述零范数等价处理为连续优化的二次函数项及所述二次函数项的互补约束,所述二次函数项以所述稀疏度的控制参数为自变量,所述互补约束指示所述控制参数控制所述模型参数变为零的条件,所述二次函数项的二次项系数大于零。
在本申请的一些实施例中,所述压缩模块被配置为:将训练数据样本输入所述神经网络模型进行分批次训练,并利用所述第二压缩模型反向传播所述神经网络模型的梯度;根据所述梯度更新所述控制参数及所述模型参数,以使得所述控制参数稀疏化所述模型参数,直到所述神经网络模型达到预定精度。
在本申请的一些实施例中,所述互补约束为所述模型参数与控制向量的向量内积等于零,所述控制向量为所述模型参数中元素都为一的向量与所述控制参数的差向量;所述压缩模块还被配置为:利用拉格朗日乘子与所述互补约束构建第一约束项,并利用罚参数与所述互补约束构建第二约束项;利用所述损失函数、所述二次函数项、所述第一约束项及所述第二约束项构建所述第二压缩模型对应的增广拉格朗日函数;根据所述增广拉格朗日函数反向传播所述神经网络模型的梯度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010711176.3/2.html,转载请声明来源钻瓜专利网。