[发明专利]基于新神威处理器的主从核协同计算编程框架有效

专利信息
申请号: 201610439755.0 申请日: 2016-06-20
公开(公告)号: CN106095583B 公开(公告)日: 2018-04-17
发明(设计)人: 乔方利;赵伟;尹训强;宋振亚 申请(专利权)人: 国家海洋局第一海洋研究所
主分类号: G06F9/50 分类号: G06F9/50;G06F15/173
代理公司: 北京一格知识产权代理事务所(普通合伙)11316 代理人: 滑春生,赵永伟
地址: 266061 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 神威 处理器 主从 协同 计算 编程 框架
【说明书】:

技术领域

发明针对我国独立自主研发的新神威处理器构成的超级计算机系统提出了主从核协同计算框架。该编程框架采用MPI实现上层的并行计算,通过Athread启动众核处理器,主核与从核作为多个独立的线程使用,共同完成相关的计算,从而使得编程人员可以直接控制各个线程的行为,最大限度地提高加速效率。采用编程框架可有效提高海洋或大气数值模式对新神威机器计算能力的利用率。

背景技术

新神威处理器是我国独立自主研发的一种世界领先的众核处理器,已应用在无锡超级计算中心的高性能计算系统。如图1所示,每个新神威处理器包括4个核组(CG),并通过片上网络互相链接。每个CG包括1个管理单元(MPE,亦称为主核)和8x8=64个计算单元(CPE,亦称为从核)。每个CG拥有独立的内存空间,称为主存,MPE和CPE等单元通过一个内存控制器(MC)访问内存空间。处理器之间通过系统接口(SI)进行联系,新神威计算机之间的链接为胖树网络。单个新神威处理器的峰值计算性能可达到3TFlops,而充分发挥这种处理器的计算能力是其推广应用的一个至关重要的问题。

对于这种新型机器架构,相应的编译器提供了基于OpenACC的编程方式,能够从一定程度上发挥这种机器的计算能力。但由于采用了fork/join方式的开发模型,把CPE作为加速硬件使用,可以让用户快速的入门开发,但加速效率受到较大的限制,不能充分利用CPE的计算能力。

发明内容

本发明基于底层的Athread,提出了一种主从核协同计算的编程框架:使用Athread启动众核后,众核作为多个独立的线程使用,与主核或主CPU共同完成相应的计算,编程人员可以直接控制各个线程的行为,最大限度的提高加速效率。

本发明的技术方案是:一种基于新神威处理器的主从核协同计算编程框架,该基于新神威处理器包含4个核组(CG),核组之间通过片上网络链接,每个核组包含一个管理单元(MPE)和64个计算单元(CPE),每个核组拥有独立的内存空间,管理单元和计算单元通过一个内存控制器(MC)访问内存空间;各处理器之间通过系统接口(SI)建立联系,其特征在于,把新神威处理器的多个核组作为多个独立的线程使用,与管理单元(MPE)共同完成相应的计算,基于利用从核的局部内存(LDM)、核组共用的主存、从核的寄存器通信协同实现高效的MPE与CPE之间及CPE之间同步代替基于OpenACC接口的拆分/合并(Fork/Join)的编程框架,能够更有效地利用新神威处理器设计的MPE和CPE计算资源。

所述的MPE与CPE之间的协同计算包括:

步骤(1):上层基于信息传递应用程序接口(MPI)的并行计算与计算通信重叠;

步骤(2):MPE、CPE多线程任务分配。

所述的步骤(1)上层的MPI并行计算与计算通信重叠的具体方法:将每个众核处理器的一个核组作为1个MPI进程,基于MPI技术实现模式的大规模并行计算;通过地理空间的网格划分,将计算任务均衡地分配到每个进程;对MPI并行分区对每个分块,模式网格点包括内区(inner)和外区(outer)两部分,inner区的计算不依赖于MPI交换,outer区的计算需要等待MPI交换的结果,该分区的outer区的上一步的计算结果需要通过MPI发送给邻区,而outer区的计算也需要从邻区接收上一步的计算结果,所需接收的计算点记为halo区;在协同计算过程中,在MPE上对外区的变量通过MPI的非阻塞式发送(ISEND)函数发送给邻区,通过非阻塞式接受(IRECV)函数接收邻区的数据,实现halo区的数据交换。

在所述的步骤(1)上层的MPI并行计算与计算通信重叠的具体方法的过程中,MPI通讯和内区的计算完全重叠进行,提高MPI并行的效率。

所述的步骤(2)主从核(MPE、CPE)多线程任务分配的具体方法:在步骤(1)完成后,每个核组将分配到近绝对均衡的计算任务,在每个核组上通过Athread启动众核多线程,进一步将计算任务平均分配到每个从核线程,而主核线程主要负责MPI通讯和数据的输入输出;每个从核线程的计算点确定后,其计算过程与单纯的MPI并行计算过程类似,但核间的数据交换通过访问主存实现,而同步则采用主从核及从核间快速同步。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家海洋局第一海洋研究所,未经国家海洋局第一海洋研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610439755.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top