[发明专利]一种通过依赖性分析加速GPU的并行化方法及系统在审
| 申请号: | 201911110439.9 | 申请日: | 2019-11-14 |
| 公开(公告)号: | CN111143042A | 公开(公告)日: | 2020-05-12 |
| 发明(设计)人: | 魏雄;王秋娴;胡倩;闫坤 | 申请(专利权)人: | 武汉纺织大学 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48;G06T1/20 |
| 代理公司: | 武汉泰山北斗专利代理事务所(特殊普通合伙) 42250 | 代理人: | 程千慧 |
| 地址: | 430073 *** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 通过 依赖性 分析 加速 gpu 并行 方法 系统 | ||
本发明涉及一种通过依赖性分析加速GPU的并行化方法及系统,本发明通过分析程序内线程控制和数据依赖性,可以对线程进行并行处理,提高程序在GPU内的处理速度,本发明的方法包括以下步骤:1、判断线程之间的控制依赖和数据依赖关系;2、提出一种线程并行执行划分方法,将具有依赖关系的线程分配到同一个计算核,减少程序和数据传输,提高系统性能;3、各计算核并行处理线程。本发明的方法和系统在很大程度提高系统运行效率,降低数据处理时间,降低计算量和能源成本。
技术领域
本发明属于应用程序在众核处理器并行处理方法领域,特别涉及一种通过线程间依赖性分析来加速GPU的并行化方法。
背景技术
GPU强大的并行处理能力在大数据、AI和高性能计算领域得到了广泛的应用。将串行线程映射到多个计算核并行执行的有效方法是目前提高GPU并行计算能力的一个巨大的挑战。并行计算的多种粒度划分方法,特别是细粒度线程分配方法在多个计算核之间的负载平衡中起着重要作用。但主存储器和GPU之间的数据传输的存储器“存储墙”问题严重影响了系统性能的进一步提升,为了缓解这个瓶颈问题,需要提出一种新的方法来减少主内存和GPU之间传输的数据量。给定一个应用程序,这种方案可以对应用程序内线程控制依赖以及数据依赖性进行分析。并能证明得出,降低内存和GPU之间的数据传输可以大大加快GPU上运行的并行程序的速度,同时降低并行计算的成本。
GPU通信存在两个待解决的问题:
(1)主内存和GPU之间的数据传输影响并行计算性能。
(2)现有的线程分配方法在不考虑数据通信开销的情况下系统的性能得不到进一步的提高。
研究的第一个问题是“存储墙”问题,它会降低GPU并行计算的性能。CPU通过PCIe将数据从主内存传输到GPU,然后由GPU处理接收到的数据。正常的PCIe的数据传输带宽是6.2GB/s,这大约是GPU高速缓存带宽的1/180。随着GPU单元数量的增加,”存储墙”问题变得更加明显。通过PCIe频繁进行数据传输会对GPU应用程序的性能产生不利影响。这一问题促使人们减少在主内存和GPU之间传输的数据量以及在多个GPU计算核之间传输的数据量,本专利优化方法旨在减少数据通信负载,从而提高在GPU上运行的并行程序的性能。
研究的第二个问题是缺乏数据感知分区方案。在过去的十年中,人们对并行粒度对顺序程序并行性的给予了极大关注。细粒度的并行粒度通过大量小型计算单元提高了负载平衡性能。细粒度的并行粒度的缺点在于过多的通信开销,这不可避免地减慢了在GPU上运行的程序的速度。
功能性的粗粒度并行可最大程度地减少负载平衡开销。但是,粗粒度的任务分配策略产生了高的数据通信负荷,程序中缺少用于数据和控制依赖性的分析方法。这个问题促使我们研究一种检测数据和控制程序依赖性的系统方法,以减轻繁重的数据通信负担。
应用程序并行执行方法可以分为三类。在第一种策略,编译器自动识别可并行化的程序段,这些段可分配给多个处理器并行执行。这种策略的缺点在于,复杂的编译技术,并行计算效率较低。第二种策略通过调用并行计算库来实现并行性,该库包含常用的并行程序段,受并行程序段数量的限制,并行效果不好。最后一种策略是从新开发可并行执行的代码,这些方法给程序员带来了沉重的负担。因此,由程序员开发的并行程序表现出较低的可并行性和可伸缩性。
前述的三种并行计算策略忽略了程序并行段之间的依赖性。实证研究表明,并行计算性能低是由两个因素造成的。首先,在负载分区中忽略了对相同数据访问和线程间的调用关系。其次,由于高数据传输开销,GPU计算核长时间闲置。
从体系结构的角度来看,GPU在功能和处理能力方面与CPU有很大不同。CPU芯片中集成处理计算核的数量是有限的(例如,少于100个)。CPU的主要功能包括分支预测和乱序执行,CPU拥有较大的缓存容量以提高系统性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉纺织大学,未经武汉纺织大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911110439.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:体态模拟装置及其控制方法
- 下一篇:一种接线端子加工过程中的分离装置





