[发明专利]一种全片上存储的神经网络加速器及其实现方法有效
| 申请号: | 202010512394.4 | 申请日: | 2020-06-08 |
| 公开(公告)号: | CN111401543B | 公开(公告)日: | 2020-11-10 |
| 发明(设计)人: | 陈乔乔;刘洪杰 | 申请(专利权)人: | 深圳市九天睿芯科技有限公司 |
| 主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/04 |
| 代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 周雷 |
| 地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 全片 存储 神经网络 加速器 及其 实现 方法 | ||
本发明提供一种全片上存储的神经网络加速器的实现方法,所述方法包括根据当前的神经网络模型,确定神经网络中输出特征图极小值所在的层;确定多层融合计算的层数,确定用于多层融合计算的PE个数,申请PE,并将多层融合计算的输出特征图存储在片上存储器,多层融合计算完成的层对应的PE被释放,待计算层重复前述操作,直至多层融合计算完整个网络的所有层。本发明还提供一种全片上存储的神经网络加速器,包括控制器、加载模块、计算阵列、后处理模块、存储模块和片上缓冲器。采用本发明实现的全片上存储神经网络加速器功耗更小、面积更小、能效比更高,易扩展、并且可以保证实时性。
技术领域
本发明涉及神经网络的应用领域,并且更具体地,涉及一种全片上存储的神经网络加速器及其实现方法。
背景技术
神经网络的应用领域中,在移动端硬件上实现神经网络(Neural Network,NN)加速,追求功耗更低,面积更小,在满足实时处理的前提下,尽可能提高能效比。
论文1“UNPU: An Energy-Efficient Deep Neural Network Accelerator WithFully Variable Weight Bit Precision”DOI: 10.1109/JSSC.2018.2865489,论文2“AnEnergy-Efficient Precision-Scalable ConvNet Processor in 40-nm CMOS”DOI:10.1109/JSSC.2016.2636225,论文3“Eyeriss An Energy-Efficient ReconfigurableAccelerator for Deep Convo-lutional Neural Networks”DOI: 10.1109/JSSC.2016.2616357,论文4“UniWiG: Unified Winograd-GEMM Architecture for Accelerating CNNon FPGAs ”DOI: 10.1109/VLSID.2019.00055,均公开了采用单层方案的NN加速器。单层方案是一层一层依次计算神经网络,例如第一层计算的结果先存到片外存储器中,第二层计算时再把第一层的结果从片外搬移进来。例如论文3的加速器中,图像数据和权重(weight)从动态随机存取存储器(Dynamic Random Access Memory,DRAM)读取到缓冲区,再传输到计算阵列中,从而实现内存流量和计算的重叠。计算阵列计算图像数据和权重之间的卷积,生成多个中间加法运算结果,该多个中间加法运算结果从阵列返回到缓冲区,将不作为下一层计算输入的中间加法运算结果进行整形和压缩到DRAM,而剩余的作为下一层计算输入的中间加法运算结果保存在缓冲区中,在下一层计算时将它们恢复到阵列,可以实现对不完全适合阵列的图像和权重尺寸的可配置支持。采用单层方案的神经网络加速器主要的不足是:(1)从片外双倍速率SDRAM (Double Data Rate SDRAM,简称DDR)读取数据功耗最大,而单层方案需要反复搬移中间临时数据,导致动态功耗很大;(2)从片外DDR加载数据需要高速接口,导致面积和成本增加。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市九天睿芯科技有限公司,未经深圳市九天睿芯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010512394.4/2.html,转载请声明来源钻瓜专利网。





