[发明专利]二值权重卷积神经网络加速器的硬件架构及其计算流程有效
| 申请号: | 201710032864.5 | 申请日: | 2017-01-12 |
| 公开(公告)号: | CN106875011B | 公开(公告)日: | 2020-04-17 |
| 发明(设计)人: | 王中风;王逸致;林军 | 申请(专利权)人: | 南京风兴科技有限公司 |
| 主分类号: | G06N3/063 | 分类号: | G06N3/063 |
| 代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
| 地址: | 210032 江苏省南京市*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 权重 卷积 神经网络 加速器 硬件 架构 及其 计算 流程 | ||
本发明公开了一种用于二值权重卷积神经网络加速器的硬件架构及其计算流程。其中,硬件架构包含以下部分:三个双端片上静态随机存储器,分别用于缓存输入神经元以及一个卷积层的二值权重;四个卷积处理单元,能够根据计算流程控制其中的运算部件完成主要的卷积计算操作;一个特征映射累积单元以及一个卷积累加阵列,用于进一步处理卷积处理单元的运算结果,以得到最终正确的输出神经元的值。整个设计通过动态随机存储器接口与片外存储器交换数据。除了硬件架构以外,本发明还包含了一个对该硬件架构优化了的,以四行输入特征映射为一次完整计算单位的详细计算流程。本发明最大化的复用了输入数据,尽可能的消除了片外存储器的访问,能够有效降低进行深度二值卷积神经网络计算的功耗,且能够支持深层网络,是一种可用于视觉应用的嵌入式系统的合理方案。
技术领域
本发明设计计算机及电子信息技术领域,特别涉及一种二值权重卷积神经网络专用加速器的硬件架构及其计算流程。
背景技术
深度卷积神经网络模型在诸多领域譬如图像分类、动作检测、语音识别以及其他大数据分析的任务中取得了极大的突破和成功。一方面,随着卷积神经网络的效果变得越来越好,其本身拓扑结构也在不断加深,参数数量也达到了10的6次方及以上级别,这带来了计算复杂度的极大提升,所需的计算能力爆炸性增长。另一方面,嵌入式系统仅能够提供有限的资源,其功耗也受限在一定范围内,现有常用的使用大规模GPU的解决方案虽然有较高的吞吐率,但其功耗过高(约250W),难以应用于嵌入式系统中。
二值权重卷积神经网络是一种简化的卷积神经网络模型,其最早由加拿大蒙特利尔大学的Matthieu Courbariaux等人提出,后又经过Itay hubara、Mohammad Rasteg等人的改进。此模型通过特别的训练方式将卷积神经网络的权重训练为二值的+1和-1,这使得模型的计算复杂度大大降低,模型的大小也能够被压缩达到32倍。
然而尽管如此,对于深度卷积神经网络,即使参数二值化能够使得复杂度有所降低,其仍然需要大量的计算,直接应用于嵌入式系统中很难满足实时性的要求。因此设计一款二值权重卷积神经网络加速器是进一步推动深度神经网络应用于嵌入式系统的理想解决方案之一。目前尚未出现理想的二值权重卷积神经网络加速器。Andri R,Cavigelli L,Rossi D,et al.YodaNN:An Ultra-Low Power Convolutional Neural NetworkAccelerator Based on Binary Weights[J].2016:236-241.中提出了一种二值权重卷积神经网络加速器,其能耗比远超现有的高精度权重神经网络的加速器。然而此架构由于大量的访问片外的主存储器,在400MHz的频率下IO的功耗需要大约328毫瓦,甚至比片上计算的功耗还高。因此,针对降低访问片外主存(动态随机存储器)的IO功耗的计算流程和对应架构亟待提出。
发明内容
本发明旨在解决卷积神经网络应用于功耗受限的嵌入式系统的技术问题,或至少提出一种有用的商业选择。为此,本发明的目的在于提出一种针对二值卷积神经网络优化的硬件加速器架构和计算流程,最大化数据复用的同时,尽可能的降低访问片外随机存储器的带宽和功耗,将大量的数据访问限制在片上访问功耗最低的寄存器上。同时本发明能够适应深度网络的需求,能够适应具有最好分类精度之一的VGG-16Net、VGG-19Net等网络拓扑的二值化版本。另外,由于二值卷积神经网络的全连接层主要为IO密集型需求,卷积计算是计算密集型需求,因此本发明着眼于二值权重卷积神经网络的卷积层的加速。
本发明主要包含两部分,一部分是整体的硬件架构,另一部分是优化的计算流程。
硬件架构包含以下部分:
1.两个用于存储卷积层输入的双端静态随机存储器,即输入神经元缓存器IMEM1,IMEM2,其容量分别能够存储该网络每一层输入的所有通道中的2行,共计4行,此行数的设置能应用于卷积核大小为3×3的二值卷积神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京风兴科技有限公司,未经南京风兴科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710032864.5/2.html,转载请声明来源钻瓜专利网。





