[发明专利]一种基于NUMA亲和性的FFT卷积算法并行实现方法及系统有效

申请号：	202111000202.2	申请日：	2021-08-27
公开（公告）号：	CN113655986B9	公开（公告）日：	2023-10-10
发明（设计）人：	王庆林;梅松竹;郝若晨;李东升;姜晶菲;赖志权;黄显栋;刘杰	申请（专利权）人：	中国人民解放军国防科技大学
主分类号：	G06F7/48	分类号：	G06F7/48;G06F17/14;G06F17/16
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	马德胜
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 numa 亲和性 fft 卷积算法并行实现方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于NUMA亲和性的FFT卷积算法并行实现方法，其特征在于，包括：

对输入数据进行快速傅里叶转换，并将第一快速傅里叶转换结果存储至指定的非一致性内存访问结点上；

对权重进行快速傅里叶转换，并将第二快速傅里叶转换结果存储至指定的非一致性内存访问结点上；

基于所述第一快速傅里叶转换结果和所述第二快速傅里叶转换结果实现非一致性内存访问级和多核级并行复数矩阵乘，并将复数矩阵乘的结果平均分布到所有非一致性内存访问结点上；

基于所述复数矩阵乘的结果进行快速傅里叶逆转换，得到快速傅里叶卷积算法的输出；其中：

所述对输入数据进行快速傅里叶转换，并将第一快速傅里叶转换结果存储至指定的非一致性内存访问结点上，包括：

将卷积输入Input[B][C][H][W]划分成B×C×X×Δ个大小的分块，其中，B表示卷积计算中mini-batch的大小，C表示输入通道数，H和W分别代表卷积输入和输出的特征图高度和宽度，是划分的分块大小，其中，H_f和W_f表示卷积核的大小，表示向上取整；

通过每个处理器核独自处理每个大小的分块的快速傅里叶转换，将快速傅里叶转换的结果划分成2×L的元组，将所有元组平均分配存储到指定的非一致性内存访问结点，其中，L表示处理器的向量寄存器宽度；

在所有处理器核并行完成所有B×C×X×Δ个分块的快速傅里叶转换后，得到第一快速傅里叶转换结果D[N][Pb][Cb_l1][Bb_r][Υ][C_l1][B_r][2×L]]，其中，N表示非一致性内存访问的结点数，表示所划分的元组总数，Υ＝X×Δ表示每个特征图中所划分成的分块数量，C_l1和B_r是复数矩阵乘中的分块大小；

所述对权重进行快速傅里叶转换，并将第二快速傅里叶转换结果存储至指定的非一致性内存访问结点上，包括：

将卷积输入Filter[K][C][H_f][W_f]填充成K×C个δ×δ大小的分块，其中，K表示输出通道数；

通过每个处理器核独自求解每个分块的快速傅里叶转换，快速傅里叶转换的划分成2×L的元组，将所有元组平均分配存储到指定的非一致性内存访问结点，其中，L表示处理器的向量寄存器宽度；

在所有处理器核并行完成所有K×C个分块的快速傅里叶转换后，得到第二快速傅里叶转换结果G[N][Pb][Cb_l1][Kb_r][C_l1][K_r][2×L]，其中，K_r是并行复数矩阵乘中的分块大小；

所述基于所述第一快速傅里叶转换结果和所述第二快速傅里叶转换结果实现非一致性内存访问级和多核级并行复数矩阵乘，并将复数矩阵乘的结果平均分布到所有非一致性内存访问结点上，包括以下步骤：

步骤1、输入D[N][Pb][Cb_l1][Bb_r][Υ][[C_l1][B_r][2×L]和G[N][Pb][Cb_l1][Kb_r][C_l1][K_r][2×L]，获得当前处理器核所在非一致性内存访问结点编号n，其中，0≤nN，当前非一致性内存访问结点内的核总数Cores，以及该处理器核在当前非一致性内存访问结点内的编号cid，其中，0≤cidCores，其中，D_n[Pb][Cb_l1][Bb_r][Υ][C_l1][B_r][2×L]与G_n[Pb][Cb_l1][Kb_r][C_l1][K_r][2×L]表示D、G存储在第n个非一致性内存访问结点上的部分；

步骤2、令δ＝0；

步骤3、令cs＝0；

步骤4、令cbμ＝cid；

步骤5、根据公式krs＝kss×K_l2，μ＝cbμ-kss×Bb_r×Υ-bss×Υ分别求解kss、bss和μ，其中，表示向下取整；

步骤6、令kk＝0；

步骤7、根据δ、cs、kk+krs、cbμ、bss、μ的值，从当前非一致性内存访问结点获取g′_n＝G_{n,δ,cs,kk+krs}，d′_n＝D_{n,δ,cs,bss,μ}，从全局获取z′＝Z_{kk+krs,bss,μ,δ}，其中，g′_n表示G张量存储在第n个非一致性内存访问结点上的子张量，其大小为C_l1×K_r×(2×L)，d′_n表示D张量存储在第n个非一致性内存访问结点上的子张量，其大小为C_l1×B_r×(2×L)，z′表示在所有非一致性内存访问介绍上均匀分布的Z张量的子张量，其大小为B_r×K_r×(2×L)；