[发明专利]神经网络压缩和加速的方法、存储设备和终端有效

申请号：	201711282087.6	申请日：	2017-12-07
公开（公告）号：	CN107944555B	公开（公告）日：	2021-09-17
发明（设计）人：	杨达坤;曾葆明	申请（专利权）人：	广州方硅信息技术有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06T1/20;G06K9/62
代理公司：	北京市立方律师事务所 11330	代理人：	刘延喜
地址：	511442 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络压缩加速方法存储设备终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种神经网络压缩和加速的方法、存储设备和终端，该方法包括步骤：对原始神经网络进行剪枝；对剪枝后的原始神经网络的网络权值进行聚类量化，并对聚类量化后的原始神经网络进行训练，得到目标神经网络；采用稀疏矩阵存储所述目标神经网络；将输入特征图转换成输入矩阵；将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图。该实施例降低了神经网络计算资源和存储空间，从而减少了计算成本。

技术领域

本发明涉及计算机技术领域，具体而言，本发明涉及一种神经网络压缩和加速的方法、存储设备和终端。

背景技术

随着神经网络模型的发展，为了解决越来越难的分类识别检测等问题，越来越深和越来越庞大的神经网络模型开始应用到这类问题上。例如，对于目前广泛用于人工智能的深度学习算法，深度网络结构较深，其计算量和模型较大，那么就需要更多的计算资源和存储空间。然而在生产应用上服务器计算资源变得越来越紧缺，速度要求越来越高，向移动端移植的需求也变得越来越紧迫，因此，在保证精度损失小的情况下，对神经网络的压缩及测试加速显得非常有必要。

传统技术中，网络压缩主要是对卷积层权值张量分解，得到多个低秩子张量，只需存储固定个数的低秩子张量达到压缩，计算时将多个低秩子张量的卷积累加得到最终的输出特征图，达到加速效果。

然而，上述低秩分解的方法模型压缩率并不高，无法有效降低计算资源和存储空间，计算成本较高。

发明内容

本发明针对现有方式的缺点，提出一种神经网络压缩和加速的方法、存储设备和终端，用以解决现有技术中存在的无法有效降低神经网络计算资源和存储空间，计算成本较高的问题，以降低神经网络计算资源和存储空间，从而减少计算成本。

本发明的实施例根据第一个方面，提供了一种神经网络压缩和加速的方法，包括步骤：

对原始神经网络进行剪枝；

对剪枝后的原始神经网络的网络权值进行聚类量化，并对聚类量化后的原始神经网络进行训练，得到目标神经网络；

采用稀疏矩阵存储所述目标神经网络；

将输入特征图转换成输入矩阵；

将所述稀疏矩阵与所述输入矩阵相乘，获得所述输入特征图对应的输出特征图。

在一个实施例中，所述对原始神经网络进行剪枝，包括：通过L1/2正则化算法对原始神经网络进行剪枝。

在一个实施例中，若采用图形处理器GPU计算输出特征图，所述将输入特征图转换成输入矩阵，包括：