[发明专利]一种深度卷积神经网络硬件加速器中的可伸缩的并行数据载入装置及其设计方法在审
申请号: | 201910269464.5 | 申请日: | 2019-04-04 |
公开(公告)号: | CN111797585A | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 林森;何一波;李珏 | 申请(专利权)人: | 北京芯启科技有限公司 |
主分类号: | G06F30/392 | 分类号: | G06F30/392;G06N3/04;G06N3/063 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 李冬梅;苗源 |
地址: | 100091 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 卷积 神经网络 硬件 加速器 中的 伸缩 并行 数据 载入 装置 及其 设计 方法 | ||
本发明提供一种用于卷积加速的可伸缩的并行数据载入装置及其设计方法,此设计可方便的伸缩扩展,为任意并行硬件加速器提供高带宽数据输入,为输入特征图提供数据变换的快速寄存机制。设计包括:并行输入寄存阵列,其尺寸设计与计算单元阵列尺寸满足特定的设计原理,令设计可定制性大大提升,并化简了输入数据变换方法;并行输入数据访问引擎,对上述并行输入寄存阵列中的数据进行并行访问,又化简了控制算法和电路结构,所以能够提升硬件实现的主频还节省芯片面积与功耗。设计形成一套硬件数据处理方法,包括变换算法和编址法则,提升了输入数据的局域空间信息利用率,为并行加速计算单元提供高带宽数据输入,并减少了对主存储器的访问次数。
技术领域
本发明属于计算机硬件、人工神经网络算法部署硬件加速的领域,数字集成电路设计领域,具体涉及一种深度卷积神经网络硬件加速芯片的输入数据的关键处理装置,及其设计方法。
背景技术
深度卷积神经网络算法由多层具体的神经元算法层、隐藏层组成,主要包含有卷积层,主要算子为矩阵或向量的卷积计算。该计算任务的主要特点为输入的数据量大、输入数据具有空间特征信息的耦合,且每次卷积计算的数据往往与已经计算过的数据发生重叠,输入数据往往为从张量格式的数据中以一定空间规律抽取所需要的计算数据。卷积层计算所需算力巨大,所需要的数据更大,存储瓶颈成为了主要的制约因素。
近年来在嵌入式端侧部署人工神经算法已经成为广泛需求,但在相关场景下,加速芯片的性能、成本因素成为制约需求的主要因素。专利文件1(公开号CN105488565A)公开了一种加速深度神经网络算法的加速芯片的运算装置及方法,为克服大量的中间值被生成并需要存储,从而所需主存空间增加的问题,其运算装置中均设置有中间值存储区域,这些区域被配置为随机存储器,运算模块通过一index访问该区域。该装置设计能够减少对主存储器的中间值读取和写入次数,降低加速器芯片的能量消耗,避免数据处理过程中的数据缺失和替换问题。专利文件2(申请公布号CN107341544A)公开了一种基于可分割阵列的可重构加速器及其实现方法,设计了便笺式存储器缓存区,用于实现数据重用。专利文件3(公开号USB0170103316A1)公开了一种卷积神经网络加速器的方法、系统及装置,在其中设计了Unified Buffer。专利文件4(公开号US20180341495A1)公开了一种卷积神经网络加速器及方法,其中采用cache装置来提供并行加速所需数据。这些发明都非常优秀,已开展在服务器、数据中心以及高端智能手机上的应用,但在嵌入式端侧的应用还有问题。
在嵌入式端侧部署人工神经算法,其需求特征为,由于加速芯片的硬件资源有限,必需要将数据进行分割处理,并尽量减少数据的膨胀;而对于不同领域和产业场景所常用的人工神经网络算法不同,这种处理应为一套简单、便于实现的方法,否则仍难以“落地”。在专利文件1和3所述发明中,由于不同神经网络算法层尺寸不一、数据重用度不同而导致加速器资源的浪费,以至于需要配合其他异构处理器来帮助解决数据相关的问题;专利3所述的存储方式需要备份更多数据,导致Buffer尺寸太大;专利2的方法采用可重构计算思想,虽然极为注重节省资源浪费,但其数据分割和排布方法很复杂;专利4的发明与中央处理器的设计过于耦合,同时设计实现复杂度过高。
发明内容
本发明提供一种专用于深度卷积神经网络硬件并行加速器中的,可伸缩的并行数据载入装置及其方法,以降低硬件电路设计的复杂度、降低芯片的面积和功耗,同时还能提供高吞吐率、高性能的并行数据带宽,提高芯片的计算资源与内存带宽利用率,降低应用的复杂度与成本。
为实现上述目的,本发明实施例提供了一种可伸缩的并行数据载入装置,该并行载入装置包括:
并行输入寄存阵列,向并行加速计算单元阵列进行高带宽的数据输入;
并行输入数据访问引擎,对上述并行输入寄存阵列中的数据进行并行访问并连接并行寄存阵列的输出以及并行加速计算单元的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京芯启科技有限公司,未经北京芯启科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910269464.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速面测多晶硅片反射率的方法
- 下一篇:一种语音识别的训练方法和装置