[发明专利]基于深度可分离卷积的轻量级神经网络硬件加速器有效
| 申请号: | 202110332526.X | 申请日: | 2021-03-29 |
| 公开(公告)号: | CN113033794B | 公开(公告)日: | 2023-02-28 |
| 发明(设计)人: | 林英撑;李睿;石匆;何伟;张玲;杨晶 | 申请(专利权)人: | 重庆大学 |
| 主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/0464;G06N3/086;G06F17/15 |
| 代理公司: | 重庆华科专利事务所 50123 | 代理人: | 谭小琴 |
| 地址: | 400030 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 可分离 卷积 轻量级 神经网络 硬件 加速器 | ||
1.一种基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:包括A路K×K通道卷积处理单元并行阵列、A路1×1点卷积处理单元并行阵列以及用于缓冲卷积神经网络和输入输出特征图的片上存储器;
所述卷积神经网络是将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络;
所述A路K×K通道卷积处理单元并行阵列、多路1×1点卷积处理单元并行阵列部署在像素级流水线中;
所述A路K×K通道卷积处理单元并行阵列中的每个K×K通道卷积处理单元包括1个乘法器、1个加法器和1个激活函数计算单元;其中,所述乘法器用于计算通道卷积和批标准化中所涉及的乘法操作;所述加法器用于累加通道卷积结果,累加K×K次后输出前项和;所述激活函数计算单元用于对输出值非线性激活;
所述多路1×1点卷积处理单元并行阵列中的每个1×1 点卷积处理单元包括多路选择器、1个两级加法器树和1个累加器;其中,所述多路选择器用于实现点卷积中的乘法操作;所述两级加法器树用于对点卷积乘法结果求和;所述累加器用于累加点卷积结果;将神经网络MobileNet采用量化感知训练方法压缩所得的轻量级神经网络,具体为:
分析模型权重分布:神经网络MobileNet包括标准卷积层、通道卷积层、点卷积层以及全连接层,分析标准卷积层、通道卷积层、点卷积层以及全连接层的权重分布情况;
确定各层量化精度:标准卷积层和通道卷积层的精度均大于等于8比特,点卷积层和全连接层的精度均小于8比特;
量化感知训练:数据集选取CIFAR-10和ImageNet两个经典数据集,数据预处理包括数据增强、标准化,神经网络MobileNet通过量化感知训练后得到轻量级神经网络。
2.根据权利要求1所述的基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:所述点卷积处理单元并行阵列由8个8选1选择器和8个伪乘法器组成;所述8选1选择器用于在不同的时钟周期为对应的伪乘法器选择来自不同通道的数据和与之相应的权重;8个伪乘法器用于实现64通道中间结果特征图的1×1点卷积。
3.根据权利要求1或2所述的基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:所述A为32至128中的任意值。
4.根据权利要求3所述的基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:所述K为3,或为5。
5.根据权利要求1或2或4所述的基于深度可分离卷积的轻量级神经网络硬件加速器,其特征在于:所述激活函数计算单元采用ReLU激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110332526.X/1.html,转载请声明来源钻瓜专利网。





