[发明专利]一种基于作业调度系统的应用作业控制系统及其控制方法有效
申请号: | 201210333454.1 | 申请日: | 2012-09-10 |
公开(公告)号: | CN102880506A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | 张磊;张涛 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F9/46 | 分类号: | G06F9/46 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100193 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 作业 调度 系统 应用 控制系统 及其 控制 方法 | ||
技术领域
本发明涉及一种高性能计算机群的控制系统及其控制方法,具体涉及一种基于作业调度系统的应用作业控制系统及其控制方法。
背景技术
在高性能计算集群的使用中,很多应用作业在提交运行后会长期占用大量的计算资源,甚至有些作业会以服务的形式长时间存在,对于这种类型的作业,从作业调度系统的角度所看到的作业状态始终为Run,而使用者更为关注的这类作业的应用本身的运行情况并没能显示出来,应用本身已经处于异常状态,但应用依旧以作业的形式运行于集群之中的情况却是时有发生的,针对这样的情况,调度系统暂未捕捉此类异常。而这种情况往往会带来的后果就是:
1、应用作业已经处于异常状态、无法提供正常的服务时,却不能被及时发现,做出相应处理
2、作业所占用的大量资源无法得到及时释放;
3、作业耗费长时运行结束,却无法得到正常的运行结果,或无法确定所得到运行结果的正确性。
现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理。这也就出现了上述的问题。
发明内容
针对现有技术的不足,本发明提供一种基于作业调度系统的应用作业控制系统及其控制方法,该方法解决了现有调度系统仅从作业的角度为使用者提供作业的相应状态信息,而没有针对应用本身的运行状态进行监控和管理的问题,保证高性能计算集群上作业内的应用程序的正常运行,同时当应用程序作业运行状态异常时,异常应用对应作业会在第一时间进入作业调度系统的Rerun(重新运行)状态,避免了资源的浪费,同时还保证了应用程序作业运行的准确性。
本发明的目的是采用下述技术方案实现的:
一种基于作业调度系统的应用作业控制系统,其改进之处在于,所述控制系统包括组播消息发送器、应用程序监控器和作业调度系统;
所述组播消息发送器被应用程序作业调用后,向组播域发送组播消息;所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;所述消息分析器判定所述组播消息运行状态是否正常,若处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun;
当应用程序监控器中的应用监听器在>10ms的指定时间内没有收到应用作业的组播消息,则认为应用作业处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun。
其中,所述组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域中发送组播消息。
其中,所述应用程序监控器包括应用监听器和消息分析器;
所述应用监听器接收所述组播消息并将其发送到消息分析器中;
所述消息分析器判定组播消息的运行状态是否正常。
其中,若组播消息处于异常状态,则通过所述作业调度系统将该应用程序作业Rerun。
本发明基于另一目的提供的一种基于作业调度系统的应用作业控制方法,其改进之处在于,所述方法包括下述步骤:
(1)组播消息发送器被应用程序作业调用后,向组播域发送组播消息;
(2)所述应用程序监控器中的应用监听器接收所述组播消息并将其发送到应用程序监控器中的消息分析器中;
(3)所述消息分析器判定所述组播消息运行状态是否正常;
(4)若处于异常状态,则通过作业调度系统将该应用程序作业Rerun。
其中,所述步骤(1)中,组播消息发送器被应用程序作业调用后,以组播格式组成结构向组播域发送组播消息。
其中,所述组播格式组成结构包括:
头部信息:用于应用监听器在监听组播域时,过滤出组播消息发送器所发出的组播消息;
消息类型码:用于确定组播消息的类型,消息的类型分为组合和单一两种类型;组合类型的消息,是指单从本条消息中无法确定作业中的应用程序运行状态是否正常,与该作业的组播消息发送器发送的下一条组播消息相结合;单一类型的消息,是指利用本条消息中的消息内容码和判定规则码判定当前作业中的应用程序运行状态是否正常;
判定规则码:根据该判定规则码对应的判定规则,来处理消息内容码后,可判定出作业中的应用程序运行状态;
消息内容码:应用监听器传给组播消息发送器的应用状态信息,用于判定作业中的应用程序的运行状态的依据。
其中,所述步骤(2)中,应用监听器接收所述组播消息后,根据组播头部信息过滤出所需的组播消息;再利用组播消息中的作业信息获取作业调度系统作业的ID信息;所述应用监听器将ID信息、消息类型码、判定规则码和消息内容码发送到消息分析器中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210333454.1/2.html,转载请声明来源钻瓜专利网。