[发明专利]一种基于CPU核管理的分布式并行计算平台及方法在审
申请号: | 201410079473.5 | 申请日: | 2014-03-05 |
公开(公告)号: | CN103870338A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 杨冬;何春江;李文博;周智强;张丹丹;张松树;麻常辉;陈勇;裘微江;刘铭;臧主峰;李星;陈继林;郭中华;康建东 | 申请(专利权)人: | 国家电网公司;国网山东省电力公司电力科学研究院;中国电力科学研究院 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/38 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cpu 管理 分布式 并行 计算 平台 方法 | ||
技术领域
本发明涉及电力系统仿真分布式并行计算领域,尤其涉及一种基于CPU核管理的分布式并行计算平台及方法。
背景技术
分布式并行计算平台是在多机环境下实现计算任务分配、任务调度、计算结果汇总、出错处理等,可以快速完成电力系统的仿真计算,并通过标准可扩展接口实现应用软件与并行计算平台之间的交互。
并行计算机群硬件近三年的飞跃式发展,并行计算单机硬件由之前的单机两路双核跃升到目前四路六核,可供利用计算资源CPU核数由三年前的单机四核发展至单机二十四核。随着D5000平台项目以及山东云仿真试点项目建设,分布式并行计算平台明确作为基本功能集成至D5000平台与云仿真平台,在电力系统计算与分析中起着关键、基本的平台支撑作用。
目前,分布式并行计算平台已经成功应用至在线运行态、在线研究态大电网预警及辅助决策系统,静态安全校核系统,离线研究态预警计算,综合稳定计算网络版,云仿真平台等。
从应用现状表现看,优缺点都很明显:在线运行态分布式并行计算平台不论是周期计算还是事件或者人工触发计算,计算任务相对计算资源饱和的情况下,运行高效、稳定;在线、离线研究态并行计算管理集群总CPU核数小于总任务数,也就是任务饱和的情况下,运行高效、稳定;在线、离线研究态分布式并行计算平台集群任务不饱和情况下,运行稳定,但是计算资源利用率低,目前的分布式计算平台都没有考虑cpu多核处理的优势,对多任务计算处理效率低,并且稳定性不高。例如:计算故障数为40,机群计算刀片为52片,每片具备计算资源8核,机群能提供的CPU核数为416核,单任务独占整个并行计算集群时间期间,计算资源核与节点利用率都仅为9.6%;分布式并行计算平台集群计算耗时木桶效应明显,单批任务(阶段与轮次)分析计算总耗时等同于轮次内最长耗时计算占用时间。
发明内容
本发明的目的就是为了解决上述问题,提出了一种基于CPU核管理的分布式并行计算平台及方法。该方法可以大大提高电网计算分析能力,并且可以提高分布式计算平台的运行效率和稳定性,另外目前计算机的高内存、分布式存储技术等也为分布式并行计算平台的多核管理提供了有力的技术支撑。
为了实现上述目的,本发明采用如下技术方案:
一种基于CPU核管理的分布式并行计算平台,包括:
数据节点服务器:包括至少一台具有cpu多核能力的计算机,用于存放历史结果以及数据库服务节点。
调度节点服务器:包括至少一台具有cpu多核能力的计算机,用于计算任务的调度与管理。
计算节点服务器:包括至少一台具有cpu多核能力的计算机,用于将用户提交的数据进行处理,并调用第三方计算程序参与计算,所述第三方核心计算程序部署在计算节点上。
计算节点服务器将计算任务传送到调度节点服务器,调度节点服务器通过计算整个集群空闲资源cpu核数,进行计算任务的调度管理与数据的分布式并行计算,并将计算结果存储至数据节点服务器。
所述计算机上安装Linux操作系统,并配置Linux的SSH服务器使各个计算机之间无密码登陆。
一种基于CPU核管理的分布式并行计算方法,包括:
搭建基于核管理的并行分布式计算平台,加载配置文件并读取配置信息。
并行分布式计算平台对整个集群空闲资源cpu核数进行采集统计。
并行分布式计算平台针对客户端用户提交的计算任务数据,以及包含任务计算类别、超时时间、计算参数信息的配置文件TaskList,实时更新集群空闲资源cpu核数,对计算任务进行并行处理。
所述并行分布式计算平台对整个集群空闲资源cpu核数进行采集统计的具体方法为:
计算节点每隔设定时间将包括cpu核数、硬盘空间、内存大小信息的本机资源打包发送至调度节点服务器。
调度节点服务器收到计算节点的资源信息包后,将cpu核数信息存储到一个全局结构体变量中。
由调度节点DistComp进程开启定时器函数,所述定时器函数定期检查所有计算节点上报资源信息情况,通过判断节点信息更新时间来判断计算节点资源上报信息是否超时,如果超时,DistComp将该计算节点的cpu核数从集群可用的cpu核数当中剔除,并存储当前集群可用的cpu核数。
所述并行分布式计算平台对计算任务进行并行处理的具体流程为:
调度节点初始化时即开启一个任务处理线程和一个消息接收线程,用于分别不断的处理任务和从别的节点发回来的消息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网公司;国网山东省电力公司电力科学研究院;中国电力科学研究院,未经国家电网公司;国网山东省电力公司电力科学研究院;中国电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410079473.5/2.html,转载请声明来源钻瓜专利网。