[发明专利]一种深度神经网络量化方法及系统及装置及介质在审
申请号: | 202111558843.X | 申请日: | 2021-12-20 |
公开(公告)号: | CN113947206A | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 成都数联云算科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/063;G06N3/04 |
代理公司: | 成都云纵知识产权代理事务所(普通合伙) 51316 | 代理人: | 熊曦;陈婉鹃 |
地址: | 610041 四川省成都市中国(四川)自*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 神经网络 量化 方法 系统 装置 介质 | ||
本发明公开了一种深度神经网络量化方法及系统及装置及介质,涉及神经网络量化领域,具体地,所述方法包括:获得第一深度神经网络,所述包括n个神经网络层,所述神经网络层分为量化层和非量化层,所述的准确率为,设定量化深度神经网络最高可接受的准确率损失阈值;基于所述和所述,使用二分法从所述n个神经网络层中查找获得所有量化层,将获得的量化层进行量化;本发明能够降低量化的时间复杂度并且能够同时找到一个局部最优的量化层组合。
技术领域
本发明涉及神经网络量化领域,具体地,涉及一种深度神经网络量化方法及系统及装置及介质。
背景技术
深度神经网络模型被广泛应用在图像分类、目标检测等机器视觉任务中,并取得了巨大成功。然而,由于存储资源和计算资源的限制,深度神经网络模型在移动端或嵌入式设备上的存储与计算仍然面临巨大挑战,因此深度神经网络的压缩和轻量化是一个亟待解决的问题。近年来,研究者们已经在深度神经网络的压缩方向取得了很多研究成果,其中,量化是压缩深度神经网络的方法之一。
一般的,深度神经网络使用float32位数字表示的参数进行卷积、激活、批归一化等计算。在推理阶段,深度神经网络只需要进行一次前向传播,可能不需要很高的数字计算精度。float32位数字占4个字节,表示的精度过高,显得有些冗余,因此可将网络参数以占2个字节的float16位或1个字节的int8(8位整数型)位进行表示,分别称为fp16(FloatPoint 16-16位浮点型数字)量化和int8量化。
大量的研究和实验表明,fp16量化可以在不损失深度神经网络精度的条件下提升其推理速度,并且可以减少推理时的运行内存。位数更少的int8量化相比于fp16量化有更快的推理速度,然而由于int8量化是将原本卷积神经网络中的fp32(Float Point 32-32位浮点型数字)位的特征层和权重参数均匀的分到[-127, 127]的整数区间内,这些参数损失的精度更高,使得某些模型进行int8量化以后推理精度降低。
部分量化是恢复int8量化模型损失精度的方法之一。部分量化是在int8量化的深度神经网络模型中,选择若干个神经网络层的参数以float32位数字表示,这样的神经网络层称为非量化层,这种同时有int8量化参数和fp32参数表示的模型称为混合精度量化模型。相比于int8量化模型,混合精度量化模型推理速度会降低,但是可以一定程度恢复int8量化模型损失的精度。
可以看出,混合精度量化模型的推理速度和精度恢复程度是一个权衡问题,一般来说,fp32精度的层数越多,推理速度越慢,精度相对会更高。因此,部分量化的目的是使混合精度量化模型的精度损失在一定范围内,找到最少的非量化层;即优化以下公式:
(1)
其中,
发明内容
本发明目的是降低量化的时间复杂度并且能够同时找到一个局部最优的量化层组合。
为实现上述目的,本发明提供了一种深度神经网络量化方法,所述方法包括:
获得第一深度神经网络,所述包括n个神经网络层,所述神经网络层分为量化层和非量化层,所述的准确率为,设定量化深度神经网络最高可接受的准确率损失阈值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联云算科技有限公司,未经成都数联云算科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111558843.X/2.html,转载请声明来源钻瓜专利网。