[发明专利]一种基于脉动阵列架构的深度学习硬件系统有效
申请号: | 202010148974.X | 申请日: | 2020-03-05 |
公开(公告)号: | CN111506344B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 雍珊珊;王新安;徐伯星;张兴;何春舅 | 申请(专利权)人: | 北京大学深圳研究生院 |
主分类号: | G06F9/30 | 分类号: | G06F9/30;G06F13/28;G06N3/0464;G06T1/20;G06T1/60 |
代理公司: | 深圳市华优知识产权代理事务所(普通合伙) 44319 | 代理人: | 余薇 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 脉动 阵列 架构 深度 学习 硬件 系统 | ||
1.一种基于脉动阵列架构的深度学习硬件系统,其特征在于,包括:
数据输入及处理子系统,用于接收、存储数据并对数据进行处理,所述数据包括特征图数据、卷积核数据、配置指令数据;
脉动阵列计算子系统,用于对所述特征图数据和卷积核数据进行逐行卷积运算并输出运算结果;
控制子系统,用于根据所述配置指令数据控制所述脉动阵列计算子系统;
所述脉动阵列计算子系统包括行处理单元和列处理单元,所述行处理单元至少包括一个处理元素PE,所述列处理单元至少包括一个所述处理元素PE;
所述处理元素PE包括卷积SRAM和卷积寄存器文件,以及ALU运算单元;
所述列处理单元通过列数据传输通道传递数据,所述行处理单元的相邻所述处理元素PE之间有数据直通通道,每个PE可与周边的PE共享数据,所述周边包括:向右输入特征图边、斜上方的卷积核边、向下的部分和边,每个PE能够完成一个一维的卷积运算,每个周期向同一PE广播输送特征图行和卷积核行,并逐行往后广播直到最后一行;每个PE的计算的部分和将在下一个周期被同一行的下一个PE所使用的;上述算法中内层循环的一个PE内表示一个一维卷积运算,而外层循环表明同一行的其他PE完成多个一维卷积运算,二维卷积则用多行的PE来完成,计算过程可如下:
时间周期0:广播输入特征图行1,各行处理元素PE1启动运算,将特征图行1与卷积核行1进行乘加运算;
时间周期1:广播输入特征图行2,各行处理元素PE1和PE2同时运算,PE1完成特征图行2和卷积核行1进行乘加运算,PE2完成特征图行2和卷积核行2进行乘加运算;
时间周期2:广播输入特征图行3,各行处理元素PE1、PE2和PE3均参与运算,PE1完成特征图行3和卷积核行1进行乘加运算,PE2完成特征图行3和卷积核行2进行乘加运算,PE3完成特征图行3和卷积核3进行乘加运算,PE3单元输出部分和行1;
运行时间3:广播输入特征图行4,处理单元PE1、PE2和PE3均参与运算,PE1完成特征图行4和卷积核行1进行乘加运算,PE2完成特征图行4和卷积核行2进行乘加运算,PE3完成特征图行4和卷积核3进行乘加运算,PE3单元输出部分和行2;
以此类推,直到PE3单元输出最后一行部分和行,则完成了一副图像和一个卷积核的卷积运算。
2.如权利要求1所述的硬件系统,其特征在于,所述卷积SRAM用于存储所述卷积核数据,所述卷积寄存器文件存储所述卷积核数据的一行数据,所述ALU运算单元用于将所述特征图数据和卷积核数据进行卷积运算。
3.如权利要求2所述的硬件系统,其特征在于,所述ALU运算单元包括卷积运算单元、多路复选器、部分和缓存、寄存器单元、加法单元和FIFO缓冲器。
4.如权利要求3所述的硬件系统,其特征在于,所述数据输入及处理子系统包括网络数据存储接口、内部存储器、直接内存访问DMA、输入缓存和接口单元,所述控制子系统包括控制器。
5.如权利要求4所述的硬件系统,其特征在于,所述接口单元用于将所述配置指令数据输入到所述控制器。
6.如权利要求5所述的硬件系统,其特征在于,所述控制器根据所述配置指令数据对所述输入缓存、脉动阵列计算子系统进行功能配置。
7.如权利要求6所述的硬件系统,其特征在于,所述输入缓存用于解压和整理所述特征图数据和卷积核数据并将数据输入到所述脉动阵列计算子系统中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010148974.X/1.html,转载请声明来源钻瓜专利网。