[发明专利]脉动卷积神经网络在审
申请号: | 201980024127.8 | 申请日: | 2019-03-22 |
公开(公告)号: | CN111937009A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 保罗·尼古拉斯·沃特莫;伊恩·鲁道夫·布拉特;马修·马蒂娜 | 申请(专利权)人: | ARM有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 陈蒙 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 脉动 卷积 神经网络 | ||
提供了用于执行神经网络的卷积神经网络计算的电路和方法。该电路包括:转置缓冲器,被配置为沿着第一维度接收致动特征向量,并且沿着第二维度输出特征分量向量;权重缓冲器,被配置为沿着第一维度存储内核权重向量,并且还被配置为沿着第二维度输出内核分量向量;以及脉动阵列,被配置为沿着第一维度接收内核权重向量,并且沿着第二维度接收特征分量向量。脉动阵列包括乘法和累加(MAC)处理单元的阵列。每个处理单元与输出值相关联。致动特征向量可以沿着第一维度移动到转置缓冲器中,并且输出特征分量向量可以沿着第二维度移出转置缓冲器,从而提供高效的数据流。
背景技术
人工神经网络(ANN)在从物联网(IoT)到大型数据中心的许多领域中得到应用。ANN可能是计算密集的,这推动了用于ANN的专用硬件加速器的发展。这些加速器具有更低功率和更高性能的潜力。特别地,已证明卷积神经网络(CNN)对于广泛范围的分类和回归应用是有用的,尤其是自然图像中的对象分类。CNN所需的核心计算是三维(3D)卷积,其可以使用图像数据的图像到列(IM2Col)变换以及随后的通用矩阵乘法(GEMM)操作在软件中实现。
CNN的硬件加速器可以遵循类似的方法,为IM2COL转换和GEMM操作提供硬件加速。GEMM操作最常用的方法是使用脉动阵列,脉动阵列由乘法累加(MAC)单元的二维(2D)网格组成,每个单元与其相邻单元连接以通过常规方式传递操作数和结果。脉动阵列是高效的,因为通信尽可能长时间地保持在本地(寄存器到寄存器),这减少了静态随机存取存储器(SRAM)和主存储器访问的数量。这种方法通常称为“操作数重用”。
但是,使用脉动阵列的挑战之一是设计硬件以执行将输入数据(和输出数据)以合适的模式重新排列从而执行正确的计算所需的“数据流”。IM2COL操作是此数据重新排列的一部分。然而,对于在诸如IoT设备之类的小型设备中的应用,期望数据重新排列应当具有简单的存储器布局以促进实际实现。此外,在可能的情况下,应最大程度地重用操作数。
附图说明
附图提供了将用于更全面地描述各种代表性实施例的视觉表示,并且本领域技术人员可以使用这些视觉表示来更好地理解所公开的代表性实施例及其的固有优点。这些附图中,相同的附图标记标识相应的元件。
图1是根据各种代表性实施例的具有卷积神经网络加速器的数据处理系统的简化框图。
图2是根据各种代表性实施例的脉动阵列的操作的图示。
图3是根据各种代表性实施例的使用流水线的脉动阵列的操作的图示。
图4是根据各种代表性实施例的使用广播的脉动阵列的操作的图示。
图5是根据各种代表性实施例的脉动阵列的处理元件或单元的框图。
图6是示出根据各种代表性实施例的卷积加速器的操作的图。
图7是根据各种代表性实施例的转置(transposing)缓冲器的示意图。
图8是根据各种代表性实施例的用于卷积神经网络的卷积层的硬件加速器的操作方法的流程图。
具体实施方式
本文中描述的各种装置和设备提供了用于卷积神经网络(CNN)的硬件加速器,该硬件加速器无需复杂的存储器布局即可提供高效的操作数重用。
根据本公开的某些代表性实施例,提供了一种用于执行神经网络的卷积神经网络计算的电路。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于ARM有限公司,未经ARM有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980024127.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于外科集线器的烟雾排抽的方法
- 下一篇:内衬钴的特征上的铜电沉积