[发明专利]一种模型量化方法及其装置在审

申请号：	202310220550.3	申请日：	2023-02-27
公开（公告）号：	CN116151326A	公开（公告）日：	2023-05-23
发明（设计）人：	刘振华;韩凯;王云鹤	申请（专利权）人：	华为技术有限公司
主分类号：	G06N3/0464	分类号：	G06N3/0464;G06N3/048;G06N3/084;G06V20/58;G06V10/764;G06V10/82;G06V20/10;G06F16/35;G06V40/10;G06T3/00;G06N5/045
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	吴欣蔚
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模型量化方法及其装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种模型量化方法，涉及人工智能领域，所述方法包括：获取神经网络的第一参数；根据所述第一参数的数值分布，确定量化截断区间，所述量化截断区间包括上界阈值和下界阈值，其中，所述第一参数中数值小于所述下界阈值的参数数量、所述第一参数中数值大于所述下界阈值且小于所述上界阈值的参数数量、以及所述第一参数中数值大于所述上界阈值的参数数量三者之间的差异小于阈值；根据所述量化截断区间，对所述第一参数进行三值量化。本申请使得第一参数中分别属于上述三个量化区间内的参数数量相同或近似相同，进而增加了三值神经网络的表达能力，从而提升量化模型的精度。

技术领域

本申请涉及人工智能领域，尤其涉及一种模型量化方法及其装置。

背景技术

神经网络模型(尤其是实现视觉相关任务的模型)在实际运行的时候需要大量的内存空间和计算资源，这使得将它们部署到移动设备上非常困难。

为了提升运行效率，通过各种不同的方法用于压缩模型的尺寸，如网络剪枝、模型量化、轻量级架构设计和知识蒸馏。在这些方法中，模型量化是对现有人工智能加速芯片相对更优的技术，因为这些芯片通常专注于低精度的计算，从而可以显著降低模型推理的时延、内存占用以及功耗。然而，现有技术中通过模型量化方法得到的压缩后的模型的精度较低。

发明内容

本申请提供了一种模型量化方法以及相关装置，可以提高网络的精度。

第一方面，本申请实施例提供了一种模型量化方法，方法包括：获取神经网络的第一参数；第一参数包括神经网络中中间层的权重矩阵或者中间层输出的特征图；根据第一参数的数值分布，确定量化截断区间，量化截断区间包括上界阈值和下界阈值，其中，第一参数中数值小于下界阈值的参数数量、第一参数中数值大于下界阈值且小于上界阈值的参数数量、以及第一参数中数值大于上界阈值的参数数量三者之间的差异小于阈值；根据量化截断区间，对第一参数进行三值量化，得到量化后的神经网络。

通过上述方式，在根据第一参数的数值分布，确定截断区间时，可以使得截断区间满足：使得第一参数中分别属于上述三个量化区间内的参数数量相同或近似相同，进而增加了三值神经网络的表达能力，从而提升量化模型的精度。

在一种可能的实现中，第一参数满足高斯分布，数值分布包括第一参数的均值和方差，上界阈值为均值和第一数值的加和结果，第一数值为方差与预设比例的乘积，下界阈值为均值和第一数值的差值结果。可选的，预设比例为0.43。

由高斯分布的性质可知，处于[-0.43σ，0.43σ]之间的参数数量占整体的约1/3(σ为方差)，因此落入三个量化区间的浮点数的数量是相等的。

在一种可能的实现中，根据量化截断区间，对第一参数进行三值量化之后，方法还包括：对量化后的神经网络进行训练，并更新上界阈值和下界阈值，以得到更新后的上界阈值和更新后的下界阈值。

在一种可能的实现中，根据量化截断区间，对第一参数进行三值量化，包括：根据量化截断区间，通过第一预设方式，对第一参数进行三值量化；其中，第一预设方式包括：数值小于下界阈值的参数被量化为第一量化系数，数值大于上界阈值的参数被量化为第二量化系数；方法还包括：对量化后的神经网络进行训练，并更新第一量化系数和第二量化系数，以得到更新后的第一量化系数和更新后的第二量化系数。本申请实施例中，使用可学习的量化系数(第一量化系数和第二量化系数)可以进一步增加三值神经网络的表达能力。

在一种可能的实现中，第一量化系数和第二量化系数为相反数，对硬件实现更为友好。

在一种可能的实现中，第一参数包括神经网络中中间层的权重矩阵以及中间层输出的特征图；对量化后的神经网络进行训练，包括：以神经网络为老师模型，对量化后的神经网络进行训练，并更新量化后的神经网络中中间层的权重矩阵，得到第一神经网络；以神经网络为老师模型，对第一神经网络进行训练，并更新第一神经网络中中间层的权重矩阵以及中间层输出的特征图进行更新，得到第二神经网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司，未经华为技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310220550.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种双因子梯度缓释的骨修复材料及其制备方法
下一篇：一种IBC吨桶自动生产线

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种模型量化方法及其装置在审

专利文献下载