[发明专利]一种基于一维脉动阵列的通用卷积神经网络加速器有效
| 申请号: | 201910168042.9 | 申请日: | 2019-03-06 |
| 公开(公告)号: | CN109934339B | 公开(公告)日: | 2023-05-16 |
| 发明(设计)人: | 陆生礼;庞伟;罗几何;李宇峰 | 申请(专利权)人: | 东南大学;东南大学—无锡集成电路技术研究所 |
| 主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/0464 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 葛潇敏 |
| 地址: | 214135 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 脉动 阵列 通用 卷积 神经网络 加速器 | ||
1.一种基于一维脉动阵列的通用卷积神经网络加速器,其特征在于包括:
AXI4总线接口,用于连接片外处理器和片外存储器,实现模式配置指令的载入、待计算数据的读取及结果数据的发送;
模式配置器,用于根据模式配置指令将各个功能模块设置为对应工作类型,从而适配不同类型的卷积神经网络计算模式;
数据调度模块,用于并发进行待计算数据缓存、计算数据读取、卷积结果缓存及卷积结果处理与输出任务;
卷积计算模块,包含N个卷积计算单元和一个J级加法树,J等于log2N,N个卷积计算单元的输出端均连接加法树,每个卷积计算单元内部包含L×M个乘累加单元,其中L代表移位寄存器级数,M代表卷积核个数;
结果处理模块,用于完成与卷积层相关联的计算,并将计算结果送入输出结果缓冲FIFO;以及,
待计算数据缓存区、卷积结果缓存区、输出结果缓冲FIFO,用于缓存对应数据;待计算数据缓存区包括N个特征图缓存单元和权重缓存单元,特征图缓存单元采用乒乓操作,保存当前计算需要的特征图行像素值及下一次计算需要的特征图行像素值;卷积结果缓存区及输出结果缓冲FIFO并行度均为M,卷积计算完成后数据由卷积结果缓存区取出,经由结果处理模块处理后通过输出结果缓冲FIFO传出;
所述卷积计算模块采用一维脉动阵列的组合形式进行并行卷积计算,由N个卷积计算单元组成,每个卷积计算单元对应一个特征图缓存单元和一个权重缓存单元;根据卷积核的行数KH,将卷积计算单元分成G组,G等于每批计算时特征图缓存单元分别缓存有G个特征图输入通道的KH行数据中的一行,而同一组权重缓存单元均缓存M个卷积核的该组对应通道的权重,对应输入通道不改变时下一批计算时只需更新每组特征图缓存单元中的S个缓存单元即可,S为卷积步长。
2.如权利要求1所述的加速器,其特征在于:所述卷积计算单元执行计算时,通过L级移位寄存器提供特征图行数据给计算单元阵列,同时权重缓存单元直接提供M个卷积核的相应位置权重值,即一个卷积计算单元L×M阵列每次计算会完成L个特征图数据与M个权重数据两两之间的定点数乘法并能够累加同位置上次计算的结果。
3.如权利要求1所述的加速器,其特征在于:所述卷积计算模块在卷积计算单元输出结果时,通过J级加法树对N个卷积计算单元对应位置结果进行累加,包括同一卷积核同一通道KH行结果累加,以及同一卷积核G通道累加,将累加结果行L个结果拼接后存入M个卷积结果缓存区。
4.如权利要求1所述的加速器,其特征在于:所述结果处理模块包括标准化模块、池化模块、激活函数模块、量化处理模块四个子模块,对应四种卷积神经网络中的结果处理操作,并行度为M,卷积结果以流水线的方式依次经过这四个模块的处理,其中标准化模块简化成标准化系数乘加操作,激活函数模块采取Relu激活函数,池化模块与量化处理模块设计了可配置分支以对应不同的池化类型与量化精度。
5.如权利要求1所述的加速器,其特征在于:所述AXI4总线接口与待计算数据缓存区、卷积结果缓存区、输出结果缓冲FIFO将多组数据合并后进行收发。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学;东南大学—无锡集成电路技术研究所,未经东南大学;东南大学—无锡集成电路技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910168042.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实现神经元模型的硬件电路
- 下一篇:一种深度学习系统及模型参数调整方法





