[发明专利]GPU编程模型中核函数最优尺寸求解方法及装置有效

申请号：	201610827221.5	申请日：	2016-09-14
公开（公告）号：	CN106651739B	公开（公告）日：	2019-08-16
发明（设计）人：	王剑秦;王佳弘;林枝宏;孙瑞志	申请（专利权）人：	中国农业大学
主分类号：	G06T1/20	分类号：	G06T1/20
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	李相雨
地址：	100193 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	gpu 编程模型函数最优尺寸求解方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种GPU编程模型中核函数最优尺寸求解方法及装置，通过构建时间开销模型能够满足并行应用程序的基本要求，保证对时间开销预测的有效性，且预测结果更为真实。通过分析时间开销模型中的参数，增设约束条件，构造尺寸优化模型，使对kernel函数尺寸的分析更全面合理，提高模型的精度和运行效率。采用分类讨论的思想，对并行程序在GPU上执行时可能出现的三种情况进行详细分析，对每种情况下kernel函数的尺寸进行求解，得到简单易操作的公式来指导用户进行尺寸的快速选择。可在不运行并行应用程序的情况下，通过静态分析得到kernel函数的最优尺寸，大大的提高工作与生产效率。

技术领域

本发明涉及并行与分布式计算处理领域，尤其涉及一种GPU编程模型中核函数最优尺寸求解方法及装置。

背景技术

自本世纪初以来，图形处理单元(GPU)逐渐开始从特定的图形加速器向通用计算设备进行演变。近年来，GPU被设计为对计算机图像的高效处理，其计算能力也有了极大提高，且与CPU相比有着更高的计算能力。因此，越来越多的用户开始利用高性能的GPU来解决复杂的应用问题。

另外，时间开销是并行算法最基本的度量方法，其他的评价准则都应以缩短时间开销为目的。并行计算的时间开销方程的研究主要是结合并行机结构的特点和通信机制，揭示影响时间开销的关键因素，将时间开销精确到若干参数，用来辅助用户改进程序或算法，并正确估计算法的时间开销和性能，以获得最优性能。

为最大限度发挥GPU的高性能计算能力，一般有三种优化方案：(1)全局存储优化；(2)共享存储优化；(3)工作流划分优化。其中，前两种优化方案可被归为GPU的存储访问优化，目前已有很多该方面的相关研究。对GPU存储访问的优化可以极大提升CPU与GPU之间的通信效率，但在存储访问优化之后，对kernel函数尺寸的工作流划分优化方法直接影响着GPU的性能。同时，对一个确定的并行程序来说，其线程总数是确定的，因此对kernel函数最优尺寸的选择是很有必要的。其中，kernel函数尺寸是由网格尺寸和线程块尺寸两部分组成的，即kernel函数中的两个尺寸参数。

目前用户通常根据他们的经验和多次尝试来决定kernel函数中网格尺寸和线程块尺寸大小，而并没有一种指导性的方法，这使用户在移植并行程序时，对尺寸划分的主观性和随意性较大，在一定程度上使GPU的高性能无法得到最大发挥。

发明内容

本发明提供一种GPU编程模型中核函数最优尺寸求解方法及装置，用于解决现有技术中核函数尺寸的不合理划分给GPU的高性能带来影响的问题。

第一方面，本发明提供一种GPU编程模型中核函数最优尺寸求解方法，包括：

获取GPU硬件结构的结构参数；

获取并行应用程序中预设的分析参数；

根据所述结构参数和所述分析参数建立时间开销模型；

根据所述时间开销模型建立尺寸优化模型；

对所述尺寸优化模型进行求解获得核函数最优尺寸并输出。

优选地，根据所述结构参数和所述分析参数建立时间开销模型，包括：

根据所述所述结构参数和所述分析参数获得线程簇访存并行度和线程簇计算并行度；

根据所述结构参数、分析参数、线程簇访存并行度和线程簇计算并行度获得线性块在核函数上的分配时间模型和执行时间模型；