[发明专利]卷积计算加速方法和装置有效

申请号：	201910446542.4	申请日：	2019-05-27
公开（公告）号：	CN110163793B	公开（公告）日：	2023-05-23
发明（设计）人：	苏放;武通达;李金阳;马君	申请（专利权）人：	湃方科技（天津）有限责任公司
主分类号：	G06T1/20	分类号：	G06T1/20;G06N3/063
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王庆龙;苗晓静
地址：	300467 天津市滨海新区中新生态城***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	卷积计算加速方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种卷积计算加速方法和装置，该方法包括：当卷积类型为深度优先卷积时，获取当前深度时序i；将当前深度时序i对应的卷积核中的列像素和特征图中的行像素输入至卷积计算单元；卷积计算单元是由乘加器构成的阵列；若imodK＝0，则将卷积核的第一行像素平移至最后一行；其中，K为卷积核的行列数；若imodK＝0，且i≥Ksupgt;2/supgt;，将卷积计算单元中第行特征作为第行深度优先卷积的输出特征。本发明实施例提供的方法和装置，有效提高了卷积计算单元的硬件利用率，避免了大量乘加器空闲造成的能量浪费，提升了深度优先卷积计算效率。

技术领域

本发明涉及计算机技术领域，尤其涉及一种卷积计算加速方法和装置。

背景技术

随着人工智能技术的发展，卷积神经网络(Convolutional Neural Network，CNN)得到了充分利用。目前主流的卷积神经网络模型结构复杂，计算数据量大，常规的CPU(Central Processing Unit，中央处理器)和GPU(Graphics Processing Unit，图形处理器)难以满足卷积计算的功耗限制和计算速度需求。

常见的解决方法是引入异构计算技术，即结合CPU的通用计算能力和卷积计算加速器的高性能，实现高效、低功耗的卷积神经网络计算。现有的卷积计算加速器通常将卷积计算过程中的数据并行(data parallelism)映射到并行的硬件计算单元上，从而完成计算加速。图1为现有技术中的卷积计算加速器的数据复用模式示意图，如图1所示，卷积计算单元包含M列*N行个乘加器(Multiply-Accumulate，MAC)。在水平方向上，卷积计算单元中的乘加器同时对特征图(Feature Map)缓冲区中的M个像素进行并行计算；在垂直方向上，卷积计算单元中的乘加器同时对卷积核缓冲区中的N个输出通道(Output Channel)进行并行计算。

然而，在卷积神经网络的不同卷积层中，沿输出通道的数据并行可能不存在。例如，深度优先卷积(Depthwise Convolution)的每个特征图只与一个输出通道的卷积核进行卷积，即沿输出通道的并行度为1。如果使用图1所示的卷积计算加速器计算深度优先卷积，由于现有的卷积计算方法仅支持固定的数据复用模式，则沿垂直方向的(N-1)行乘加器处于空闲状态，既造成了能量和面积的浪费，又影响了卷积计算的效率。

发明内容

本发明实施例提供一种卷积计算加速方法和装置，用以解决现有卷积计算加速器计算深度优先卷积时，仅一行乘加器处于运算状态，浪费能量、面积，计算效率低的问题。

第一方面，本发明实施例提供一种卷积计算加速方法，包括：

当卷积类型为深度优先卷积时，获取当前深度时序i；

将所述当前深度时序i对应的所述卷积核中的列像素和特征图中的行像素输入至卷积计算单元；所述卷积计算单元是由乘加器构成的阵列；

若imodK＝0，则将卷积核的第一行像素平移至最后一行；其中，K为所述卷积核的行列数；

若imodK＝0，且i≥K²，将所述卷积计算单元中第行特征作为第行深度优先卷积的输出特征。

优选地，所述将所述当前深度时序i对应的所述卷积核中的列像素和特征图中的行像素输入至卷积计算单元，之前还包括：

获取所述卷积核中的第imodK列像素，作为所述当前深度时序i对应的所述卷积核中的列像素。

优选地，所述将所述当前深度时序i对应的所述卷积核中的列像素和特征图中的行像素输入至卷积计算单元，之前还包括：

获取所述特征图中第行的第imodK至第imodK+M-1个像素作为所述当前深度时序i对应的所述特征图的行像素；其中，卷积计算单元的列数为M，所述特征图的列数为M+K-1。

优选地，还包括：