[发明专利]一种基于GEMM的深度神经网络加速方法和系统在审
| 申请号: | 202210245988.2 | 申请日: | 2022-03-14 |
| 公开(公告)号: | CN114722999A | 公开(公告)日: | 2022-07-08 |
| 发明(设计)人: | 舒惠瑶;冼允廷;陆璐 | 申请(专利权)人: | 华南理工大学;中山市华南理工大学现代产业技术研究院 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06F17/16;G06F7/523 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 杨望仙 |
| 地址: | 511458 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 gemm 深度 神经网络 加速 方法 系统 | ||
1.一种基于GEMM的深度神经网络加速方法,其特征在于,包括以下步骤:
S1、判断输入的矩阵乘法为规则矩阵乘法或为不规则矩阵乘法;
S2、若为规则矩阵乘法,则遍历预制定的规则矩阵乘法分片策略,以Kernel Occupancy为依据选择最佳分片策略;若为不规则矩阵乘法,则根据矩阵维度和预制定的不规则矩阵乘法分片策略生成分片策略并遍历生成的分片策略,以Kernel Occupancy为依据选择最佳分片策略;
S3、根据所选的最佳分片策略对矩阵进行分片,对所有矩阵片进行计算得到运算结果。
2.根据权利要求1所述的一种基于GEMM的深度神经网络加速方法,其特征在于,所述步骤S1具体包括:计算输入的矩阵乘法的行列数的比值k,若0.5<k<2则为规则矩阵乘法,否则为不规则矩阵乘法;比值k的计算公式:
其中,Nrow为矩阵行数,Ncol为矩阵列数。
3.根据权利要求1所述的一种基于GEMM的深度神经网络加速方法,其特征在于,所述的预制定的规则矩阵乘法分片策略、预制定的不规则矩阵乘法分片策略均是根据GPU架构和相关参数制定,所述GPU的相关参数包括单个block包含的最大work item数、CU中最大LDS容量、SIMD中VGPR数目。
4.根据权利要求1所述的一种基于GEMM的深度神经网络加速方法,其特征在于,所述步骤S2具体包括:针对规则矩阵乘法,遍历预制定的规则矩阵乘法分片策略,计算KernelOccupancy,选择最大Kernel Occupancy对应的分片策略;针对不规则矩阵乘法,根据矩阵维度和预制定的不规则矩阵乘法分片策略生成分片策略,遍历生成的分片策略、计算Kernel Occupancy,选择最大Kernel Occupancy对应的分片策略。
5.根据权利要求4所述的一种基于GEMM的深度神经网络加速方法,其特征在于,所述根据矩阵维度和预制定的不规则矩阵乘法分片策略生成分片策略的方法包括:
定义矩阵小维度的分片尺寸为2n,n为正整数,当Tmin≤L时,2n需满足:
Tmin≤2n≤L
其中,Tmin为预制定的规则矩阵乘法分片策略的最小分片尺寸,L为矩阵小维度的大小;
当Tmin>L时,2n需满足:
0≤2n≤L
其中,L为矩阵小维度的大小;
对于符合以上任一条件的矩阵小维度的分片尺寸2n,在预制定的不规则矩阵乘法分片策略中选择分片尺寸大于2n的条目与2n组成新的分片策略。
6.根据权利要求1或4所述的一种基于GEMM的深度神经网络加速方法,其特征在于,所述Kernel Occupancy的计算公式为:
其中,O为Kernel Occupancy值,WFblockWFLDS,WFVGPR分别表示由block数目及大小、LDS和VGPR使用情况计算得到最大活跃wavefront数目,WFmax为单个CU中最大的并行wavefront数,在AMDGCN5和CDNA架构中,WFmax=40。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;中山市华南理工大学现代产业技术研究院,未经华南理工大学;中山市华南理工大学现代产业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210245988.2/1.html,转载请声明来源钻瓜专利网。





