[发明专利]运算加速器、处理方法及相关设备有效
申请号: | 201880098517.5 | 申请日: | 2018-10-09 |
公开(公告)号: | CN112840356B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 刘虎;黄彬 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/06 | 分类号: | G06N3/06;G06F17/16 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;李稷芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 运算 加速器 处理 方法 相关 设备 | ||
一种运算加速器(10)、处理方法及相关设备,包括:第一存储器(102),用于存储输入数据集;矩阵转换器(101),用于执行以下动作:从所述输入数据集中读出M个行向量,生成第一指令;向第二存储器(103)发送所述M个行向量和所述第一指令;所述第二存储器(103),根据所述第一指令对所述M个行向量进行预处理,得到n个行向量,并存储所述n个行向量;所述n个行向量包括所述M个行向量和(n‑M)个填充行向量;其中,所述n个行向量为目标矩阵的N个行向量,所述n个行向量在所述第二存储器(103)中的存储顺序与所述目标矩阵中的N个行向量的顺序一致。采用上述运算加速器(10)、处理方法及相关设备可以提升卷积运算的效率。
技术领域
本申请涉及人工智能领域的数据处理技术,尤其涉及一种运算加速器、处理方法及相关设备。
背景技术
近年来,随着深度神经网络、异构计算、高带宽高存储密度、大数据、云计算等技术的突破,人工智能的应用迅猛发展,走进大众生活的方方面面。当前的人工智能很大一部分的计算就是各种神经网络的运算,而卷积计算占据了整个神经网络的大部分计算量和数据吞吐量。
由于各种人工智能(Artificial Intelligence,AI)设备的遍及,云端大数据分析计算对AI加速的饥渴需求,神经网络的计算,特别是对卷积的计算能力、计算效率的提升问题日显突出。
卷积神经网络的主要组成部分为卷积计算,占据整个卷积神经网络95%以上计算量。卷积计算当前主流的计算方式是将3D的卷积输入数据集和3D的权重参数数据集的卷积运算转换成两个矩阵之间的乘法计算。但是,当两个矩阵较大时,可能会存在矩阵缓存空间不足、计算不灵活、计算效率低的问题。因此,如何提高卷积计算的效率,达到显著的提高神经网络算法的应用效果成为亟待解决的问题。
发明内容
本发明实施例提供一种运算加速器、处理方法及相关设备,以提升对卷积神经网络的运算效率。
第一方面,本发明实施例提供了一种运算加速器,可包括:矩阵转换器,以及与所述矩阵转换器耦合的第一存储器和第二存储器:其中,所述第一存储器,用于存储输入数据集;所述输入数据集包括S个行向量,所述S个行向量中的每一个行向量包括C0个数据,所述C0个数据为输入特征图中元素Aij在C方向上连续C0个通道对应的数据,其中,所述输入特征图的尺寸为W*H*C,W为宽度、H为高度、C为通道数,Aij为所述输入特征图的W*H平面中第i行第j列的元素,i为小于或者等于W的正整数,j为小于或者等于H的正整数;所述矩阵转换器,用于执行以下动作:从所述输入数据集中读出M个行向量,生成第一指令;所述M个行向量为目标矩阵中的M个行向量,所述目标矩阵的尺寸为N*C0,所述目标矩阵的N个行向量为卷积核在所述输入特征图的W*H平面上连续滑动N次时,所述W*H平面上与所述卷积核中元素Wmt对应的N个元素Aij所对应的行向量,Wmt为所述卷积核中的第m行第t列的元素;所述第一指令包括针对所述M个行向量进行预处理的指令,所述预处理包括移位、拼接和填充的一种或多种;其中,M为小于或者等于S的整数,N为大于或者等于M的整数,C0为小于或者等于C的整数;向所述第二存储器发送所述M个行向量和所述第一指令;所述第二存储器,根据所述第一指令对所述M个行向量进行所述预处理,得到n个行向量,并存储所述n个行向量;所述n个行向量包括所述M个行向量和(n-M)个填充行向量;其中,所述n个行向量为所述目标矩阵的N个行向量,所述n个行向量在所述第二存储器中的存储顺序与所述目标矩阵中的N个行向量的顺序一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880098517.5/2.html,转载请声明来源钻瓜专利网。