[发明专利]面向GPDSP的大规模三角线性方程组求解向量化计算的方法有效

申请号：	201510062255.5	申请日：	2015-02-06
公开（公告）号：	CN104615584B	公开（公告）日：	2017-12-22
发明（设计）人：	刘仲;陈书明;扈啸;万江华;陈海燕;陈胜刚;胡封林;郭阳;田希;陈磊;刘胜;孙海燕;阳柳;张雪萌;陈跃跃;吴家铸	申请（专利权）人：	中国人民解放军国防科学技术大学
主分类号：	G06F17/16	分类号：	G06F17/16;G06F15/16
代理公司：	湖南兆弘专利事务所(普通合伙)43008	代理人：	周长清
地址：	410073 湖南省长沙市砚瓦池正***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	面向 gpdsp 大规模三角线性方程组求解量化计算方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明主要涉及通用计算数字信号处理器(General-Purpose Digital Signal Processor，简称GPDSP)，特指一种适用于GPDSP的大规模三角线性方程组求解向量化计算的方法。

背景技术

三角线性方程组求解计算在高性能计算和科学工程计算领域中应用广泛。例如，大规模稠密线性方程组求解通常是先进行系数矩阵的LU分解或QR分解，再转化为三角线性方程组求解，最后通过三角线性方程组求解获得最终的线性方程组的求解结果。高性能基准测试程序(High Performance Linpack，HPL)是TOP500最重要的测试基准，HPL通过求解稠密线性代数方程组，以测试和评价高性能计算机系统的浮点性能，HPL在完成矩阵LU分解之后，还需要一个下三角线性方程组求解和一个上三角线性方程组求解以完成最终的计算。因此，三角线性方程组求解的性能对提高HPL的效率具有非常重要的应用价值。

目前，三角线性方程组求解的加速方法包括硬件方法和软件方法，硬件的加速方法代价高，通用性差；软件方法主要是采用循环展开、软件流水等软件优化方法进行加速，通常加速的效果不明显，很难实现大幅度的加速。近年来，随着GPU的计算能力飞速发展，在专利申请号：200910226769.4的文献中提出一种利用CPU和GPU协同工作对三角线性方程组求解的加速方法，该方法根据CPU和GPU的性能进行负载平衡，这种静态的任务分割与具体的实现方法相关，难以保证最优的发挥处理器的性能。

在专利申请号为201310725118.6的文献(处于实审阶段)中提供了一种通用计算数字信号处理器(General-Purpose Digital Signal Processor，简称GPDSP)，它包含CPU核单元和DSP核单元，CPU核单元主要用于负责包括存储管理、文件控制、进程调度、中断管理任务在内的通用事务管理以及提供对通用操作系统的完整支持；DSP核单元包含若干强大计算能力的64位向量处理阵列，用于支持高密集运算任务的解算。GPDSP中CPU核的优势在于控制管理，其计算能力在GPDSP中的占比极小，而DSP核的向量处理阵列具有强大向量化计算能力和高带宽的向量数据加载能力，是GPDSP计算性能的主要贡献者，因此，上述利用CPU和GPU对三角线性方程组求解的加速方法不适合GPDSP，不能充分利用DSP核的向量阵列存储访存模式和向量处理阵列并发向量处理的体系结构特征，难以发挥GPDSP的向量计算优势。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理简单、操作方便、能充分利用GPDSP中CPU核的通用计算和DSP核的强大向量处理阵列并行计算、高带宽向量数据加载能力，显著提高DSP核计算访存比的面向GPDSP的大规模三角线性方程组求解向量化计算的方法。

为解决上述技术问题，本发明采用以下技术方案：

一种面向GPDSP的大规模三角线性方程组求解向量化计算的方法，为：

采用分块计算的方式将大规模三角线性方程组的求解分割为不规整三角矩阵分块与向量乘法和规整化的矩阵分块与向量乘法；

通过GPDSP中的CPU核运行操作系统，负责数据的逻辑分割和任务的调度，计算负载较少的不规整三角矩阵分块与向量乘法计算；

通过GPDSP中的DSP核负责规整化的矩阵分块与向量乘法，不间断的从CPU核获取新的计算任务并将运行结果报告CPU核，所述CPU核通过动态调度实现各DSP核之间的计算任务的动态负载均衡。

作为本发明的进一步改进：所述方法的具体流程为：

S1：由GPDSP的CPU核在片外DDR存储器为矩阵A，向量x和b分配存储空间，并生成初始化数据或者从其他数据来源传输本次计算所需要的数据；

S2：根据GPDSP的体系结构特征确定优化的下三角矩阵的分块大小NB值；

S3：由GPDSP的CPU核根据上述步骤确定的NB值将矩阵A，向量x和b进行逻辑分块；

S4：GPDSP的CPU核将三角分块T_i和子向量b_i加载到片内共享存储阵列中，初始i＝1，计算得到计算结果x_i传出到片外DDR存储器中，同时保持在片内共享存储阵列中；