[发明专利]GPU编程模型中核函数最优尺寸求解方法及装置有效
申请号: | 201610827221.5 | 申请日: | 2016-09-14 |
公开(公告)号: | CN106651739B | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 王剑秦;王佳弘;林枝宏;孙瑞志 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06T1/20 | 分类号: | G06T1/20 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 李相雨 |
地址: | 100193 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种GPU编程模型中核函数最优尺寸求解方法及装置,通过构建时间开销模型能够满足并行应用程序的基本要求,保证对时间开销预测的有效性,且预测结果更为真实。通过分析时间开销模型中的参数,增设约束条件,构造尺寸优化模型,使对kernel函数尺寸的分析更全面合理,提高模型的精度和运行效率。采用分类讨论的思想,对并行程序在GPU上执行时可能出现的三种情况进行详细分析,对每种情况下kernel函数的尺寸进行求解,得到简单易操作的公式来指导用户进行尺寸的快速选择。可在不运行并行应用程序的情况下,通过静态分析得到kernel函数的最优尺寸,大大的提高工作与生产效率。 | ||
搜索关键词: | gpu 编程 模型 函数 最优 尺寸 求解 方法 装置 | ||
【主权项】:
1.一种GPU编程模型中核函数最优尺寸求解方法,其特征在于,包括:获取GPU硬件结构的结构参数;获取并行应用程序中预设的分析参数;根据所述结构参数和所述分析参数建立时间开销模型;根据所述时间开销模型建立尺寸优化模型;对所述尺寸优化模型进行求解获得核函数最优尺寸并输出;其中,根据所述结构参数和所述分析参数建立时间开销模型,包括:根据所述所述结构参数和所述分析参数获得线程簇访存并行度和线程簇计算并行度;根据所述结构参数、分析参数、线程簇访存并行度和线程簇计算并行度获得线性块在核函数上的分配时间模型和执行时间模型;将所述分配时间模型和所述执行时间模型进行整合获得时间开销模型;根据所述所述结构参数和所述分析参数获得线程簇访存并行度和线程簇计算并行度,包括:线程簇访存并行度的计算包括:![]()
WMPDM=min(WMPDMax,WMPDReg,WMPDSmem) (3)![]()
![]()
其中,WMPD为线程簇访存并行度,WMPDReg为在流多处理器中寄存器数量的限制下可同时运行的线程簇数量,WMPDSmem为在流多处理器中共享内存大小的限制下可同时运行的线程簇数量,WMPDM为在硬件限制下一个流多处理器上可同时运行的最大线程簇数量,WMDPMax为在硬件限制下一个流多处理器上可同时运行的线程簇数量;NReg_Per_SM为每个流多处理器中寄存器的数量,NReg_per_Thread为每个线程所需寄存器的数量,warpSize为每个线程簇中的线程数目,NSmem_per_SM为每个流多处理器中共享内存的大小,NSmem_per_Thread为每个线程所需共享内存的数量,NActive_Blocks_per_SM为每个流多处理器上活动线程块的数量,NMax_Active_Blocks_per_SM为每个流多处理器上最大活动线程块数量,dGrid为线程块的总数量,NSMs为GPU结构中流多处理器的数量,dBlock为每个线程块中线程的数量,NThreads为线程的总数量,dGrid.x为x维度上线程块的数量,dGrid.y为y维度上线程块的数量;线程簇计算并行度的计算包括:
TM=Mem_Cycle×Mem_insts (8)TC=Comp_Cycle×Comp_insts (9)其中,WCPD为线程簇计算并行度,TM为每个线程簇的访存时间,TC为每个warp的计算时间。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610827221.5/,转载请声明来源钻瓜专利网。