[发明专利]一种多集群系统的可重组方法无效

申请号：	200910236550.2	申请日：	2009-10-26
公开（公告）号：	CN101702721A	公开（公告）日：	2010-05-05
发明（设计）人：	胡凯;丁毅;牛建伟;陈陆佳;那日苏;张伟	申请（专利权）人：	北京航空航天大学
主分类号：	H04L29/06	分类号：	H04L29/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种集群系统重组方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及高性能计算机集群技术领域，特别是涉及到多集群间的可重组技术。

背景技术

集群是一种计算机系统，它通过一组松散集成的计算机软件和硬件连接起来高度紧密地协作完成计算工作，具有造价低、维护简便、配置灵活等优点，并且一般情况下集群计算机比单个计算机，比如工作站或超级计算机性能价格比要高得多。图1为集群的物理结构，多台计算机(管理节点1和计算节点3)通过交换机或其他高速通信设备2连接成网络，即构成一个简单的计算机集群(以下简称为集群)。图2为集群的逻辑结构。

但是随着社会的发展，人们对大量数据计算和复杂问题求解的需求日益增多，对计算机系统的性能、可用性和成本提出了更高的要求，单个集群很多时候已经不能够满足计算的需求，它的缺点及不足也逐渐凸显。

当并行作业需要的节点数超过集群的总节点数时，单个集群就没有办法运行了，所以单个集群无法处理更大规模的计算任务。如果将多个处于不同地理位置的集群通过网络连接起来，组成一个更大的计算资源，通常称之为多集群(Multi-cluster)。多集群技术可以将一些企业和组织现有的多个集群连接起来，组成一个更大的计算资源。这样做不仅可以大大提高该组织整体的计算能力，能够运行更大规模的计算任务，还可以平衡负载，避免有些部门的集群用户因作业多而使得所属部门的集群系统过度超载，而另一些部门的集群用户则因为作业少而闲置了该部门的集群系统，使得集群系统的使用率非常的低。这种方案不需要增加硬件成本，仅要更新系统，就可以大大提高计算能力，是非常有效的。

然而，现实应用中需要集群之间能够灵活的配置，以便于车载或移动并行计算。多个集群可以通过灵活组合及拆分配置形成一个灵活计算环境，就必须将这些集群有机地结合为一个逻辑上的整体，使其既能满足更高计算能力的要求，又具有良好的可伸缩性和可用性。换句话说，多个独立的集群在面临具有较大计算量的任务时，需要整合到一起共同提供计算能力，而在计算任务完成后，又需要能够马上分散开去单独使用，甚至在一些特殊的情况下，需要将单个或一组集群从多集群中拆出去，组合成一个小规模的多集群进行车载移动计算。但是，现有技术并未有效的解决上述问题。

发明内容

有鉴于此，本发明的目的就是要提供一种多集群系统的可重组方法，该方法就可以解决多集群组合、拆分等灵活性配置问题，可以满足特殊环境下的动态性、自适应性要求。

根据本发明的第一方面，本发明揭露了一种多集群系统的可重组的方法，包括如下步骤：将多个能够单独工作的成员集群的管理节点之间以网络互联，使管理节点之间能够相互通信，从而构成多集群；令所述管理节点转发所述成员集群的各个计算节点之间的通信；在每个成员集群的所述管理节点中设置调度器和作业管理器，负责作业的提交、调度与管理；在每个成员集群的所述计算节点中设置资源及作业监控器，负责监视计算节点的资源状况和作业任务的执行；每个成员集群的管理节点负责接收本地用户提交的作业，由管理节点将作业分配到各个计算节点，为避免调度冲突，每个成员集群的管理节点只与一个被激活的调度器交互进行作业的调度，所述被激活的调度器是为多个成员集群中的所述管理节点服务的；将所述多集群中的多个成员集群进一步划分为主集群和从集群，其中主集群是具有所述被激活的调度器的成员集群，从集群是不包含所述被激活的调度器的成员集群；该方法进一步包括以下三种处理：处理一，根据系统需求，将一待合并集群加入到当前多集群中；处理二，根据系统需求，在主集群退出当前多集群后，重新确定新的主集群；处理三，根据系统需求，将某一从集群退出当前多集群，并重新组织多集群。

根据本发明的第一方面，上述处理一进一步包括：探测阶段、握手阶段、竞争阶段和更新阶段；所述待合并集群是未加入任何多集群的单集群，或是一个多集群；其中，

a.探测阶段

①当前主集群周期性的向多集群网络内广播一条探测消息，并监听回复；

②一个待合并集群收到了一条上述探测消息后，判断它是否是自己发出的，如果是则丢弃；如果不是则向发送探测消息的当前主集群发送一条包含自己信息的回复，之后，该待合并集群丢弃所有收到的探测消息；

③当前主集群收到待合并集群的回复消息后，当前主集群向待合并集群发送请求结合的消息，并等待该请求结合的消息的回复消息；

b.握手阶段

④待合并集群收到当前主集群发来的请求结合的消息以后，向当前主集群发送该请求结合的消息的回复消息；

⑤当前主集群收到待合并集群发来的该请求结合的消息的回复消息后，向待合并集群发送同意结合消息，双方握手成功；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910236550.2/2.html，转载请声明来源钻瓜专利网。