[发明专利]面向GPDSP的大规模高性能Linpack测试基准实现的方法有效
申请号: | 201510062079.5 | 申请日: | 2015-02-06 |
公开(公告)号: | CN104615516B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 刘仲;陈书明;郭阳;陈海燕;万江华;陈磊;田希;孙永节;彭元喜;扈啸;王耀华;马胜;陈虎;张军阳;鲁庆男 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F11/22 | 分类号: | G06F11/22;G06F17/12 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清 |
地址: | 410073 湖南省长沙市砚瓦池正*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向GPDSP的大规模高性能Linpack测试基准实现的方法,采用分块的方式来求解稠密线性方程组:较小的串行任务和小矩阵求逆和三角方程求解任务,由GPDSP中的CPU核负责;规整的计算任务由GPDSP中的DSP核负责。本发明具有原理简单、操作方便、能充分利用GPDSP中DSP核向量处理阵列的强大向量并行计算和高带宽向量数据加载能力、由CPU核和DSP核协同高效的实现大规模Linpack测试基准计算的优点。 | ||
搜索关键词: | 面向 gpdsp 大规模 性能 linpack 测试 基准 实现 方法 | ||
【主权项】:
1.一种面向GPDSP的大规模高性能Linpack测试基准实现的方法,其特征在于,采用分块的方式来求解稠密线性方程组:将计算任务中任务计算量相对较小的串行任务和矩阵求逆和三角方程求解任务,由GPDSP中的CPU核负责;对于计算任务中规整矩阵乘法类的计算任务由GPDSP中的DSP核负责;得到的LU分解结果,并通过GPDSP的CPU核和DSP核协同计算,求解方程LUx=b;具体步骤为:S1:根据GPDSP的体系结构特征确定最佳的Linpack测试基准的矩阵规模n值和分块大小NB值;S2:根据上述已确定的n值,由GPDSP的CPU核在片外DDR存储器为矩阵A和向量x,b分配存储空间,并生成初始化数据;S3:GPDSP的CPU核和DSP核协同计算,按照NB×NB阶的分块规模对n×n阶的矩阵进行LU分解;S4:根据步骤S3得到的LU分解结果,GPDSP的CPU核和DSP核协同计算,求解方程LUx=b;所述步骤S4中求解方程LUx=b分两步:(1)GPDSP的CPU核和DSP核协同计算,按照分块的方法求解三角方程Ly=b;(2)GPDSP的CPU核和DSP核协同计算,按照分块的方法求解三角方程Ux=y;S4.1:GPDSP的CPU核和DSP核协同计算,按照分块的方法求解三角方程Ly=b;S4.2:根据GPDSP的体系结构特征确定求解上述三角方程所需的分块大小NC值;上述求解三角方程所需的分块大小NC值的确定方法是:设条件(1)16*NC*p*q≤s;(2)8*(NC*NC+(r+2)*NC)≤t;(3)NC是(p*q)的整数倍,n是NC的整数倍;按照满足条件(1)(2)(3)取得的最大NC值为所需要的NC值;S4.3:设下三角矩阵L按照上述NC值进行分块,记j=n/NC;沿对角线的三角分块依次标记为Ti,其中1≤i≤j,以该分块为坐标,对应列方向的分块依次标记为Si+1,i,Si+2,i,…,Sj,i;将y,b分别划分为长度为NC的子向量,分别有j个子向量,分别标记为y1,y2,…,yj;b1,b2,…,bj;S4.4:GPDSP的CPU核将三角分块T1和子向量b1加载到片内共享存储阵列中,计算得到y1=T1‑1b1,计算结果y1传出到片外DDR存储器中,同时保持在片内共享存储阵列中;S4.5:GPDSP的r个DSP核通过DMA依次从片外DDR存储器将三角分块T1所在列的矩阵分块S2,1,S3,1,...,Sr+1,1和子向量b1后续的r个子向量b2,b3,…,br+1传入计算,其中S2,1,S3,1,...,Sr+1,1传入到DSP核的片内向量阵列存储器,子向量b2,b3,…,br+1传入到片内共享存储阵列中;分别执行计算:b2=b2‑S2,1*y1,b3=b3‑S3,1*y1,...,br+1=br+1‑Sr+1,1*y1,计算后的结果b2,b3,…,br+1保持在片内共享存储阵列中;重复上述计算,直到该列方向所有的矩阵分块计算完毕;S4.6:GPDSP的CPU核将下一个三角分块T2加载到片内共享存储阵列中,计算得到
计算结果y2传出到DDR存储器中,同时保持在片内共享存储阵列中;S4.7:重复步骤S4.5和步骤S4.6,直到完成所有的子向量y1,y2,…,yj的计算;其中,设GPDSP中CPU核数量为m个,DSP核数量为r个;DSP核的向量处理阵列计算单元数量为p个,每个计算单元的乘加部件MAC数量为q个,DSP核的片内向量阵列存储器容量为s字节;GPDSP的片内共享存储阵列容量为t字节,GPDSP的片外共享DDR存储容量为u字节。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510062079.5/,转载请声明来源钻瓜专利网。