[发明专利]一种基于代理技术的网格计算容错系统及方法有效
申请号: | 200910087661.1 | 申请日: | 2009-06-30 |
公开(公告)号: | CN101594254A | 公开(公告)日: | 2009-12-02 |
发明(设计)人: | 廖馨;赵雯;孔文秦;王悦 | 申请(专利权)人: | 中国运载火箭技术研究院 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L1/22;H04L29/06 |
代理公司: | 中国航天科技专利中心 | 代理人: | 安 丽 |
地址: | 100076北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 代理 技术 网格 计算 容错 系统 方法 | ||
技术领域
本发明涉及一种网格计算的容错机制,属于计算机网络技术领域。
背景技术
网格技术是近年来的一项技术热点,它的目的是实现资源共享,协同工作,通过高速网络将各种分布的自治的资源联合在一起,提供高性能的计算服务。网格环境中的资源具有共享性、非独占性、动态性、异构性等特性。在网络平台上存在着各种计算机、应用程序、数据和服务,这些元素本身不可能保证在运行中永远百分之百正确,并且它们之间的交互也可能会出现错误。此外,由于计算机故障、网络故障、计算资源被网格计算外用户抢占、使用或终止等情况,都有可能会导致网格节点不可用。因此,网格环境中的容错机制十分必要。
网格容错机制本身应准确识别网格计算中的各类错误,并能够采取相应的有效措施,并且容错机制应对整个网格计算系统的性能影响尽可能小,网络传输数据和耗费的资源尽可能少。
目前,网格环境中的容错机制研究通常采用静态或动态心跳机制检查计算节点的可用性,采用设置备份节点的方式进行冗余设计。心跳机制只能诊断节点的不可用错误,对于作业的不响应错误等不适用。备份节点的系统资源开销较大,恢复机制复杂。在网格环境下,对计算节点进行备份基本是不可行的。华中科技大学学报,2006年第34卷中《具有容错机制的网格监控系统》在被监控节点数据上设置采集代理,实现对不同平台系统性能状态的数据采集,通过冗余的层次化节点架构,减少单点故障造成的影响。但该文中采用的备份策略对节点数有较高要求,也没有考虑到网格作业的运行需求。计算机应用研究,2008年第25卷中《网格动态容错服务架构研究》针对资源崩溃和资源的可用性达不到最低的QoS标准两种情况,建立了包括网格错误检测与网格错误管理的动态容错服务架构。但该文中没有考虑到网格系统主节点故障的可能性,也没有对具体的错误处理技术和流程进行说明。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于代理技术的网格计算容错系统及方法,本系统及方法能够处理网格主节点和计算节点的失效错误,并能针对计算节点的过载情况对计算作业进行重新分配和迁移。
本发明的技术解决方案是:一种基于代理技术的网格计算容错系统,包括一个主节点、一个备份节点和多个计算节点;主节点上设置主控代理容器、主控代理和主监控代理;备份节点上设置备份代理容器和备份监控代理;每个计算节点上设置节点代理容器、监控代理和作业代理;
主控代理,按预定心跳周期检查主节点上是否存在未分发的工作,为未分发的工作选择计算节点,并将该工作的作业信息和选择的计算节点地址发送给主控代理容器;主控代理接收到主监控代理的计算节点失效信息时,查询该节点上分配的作业信息,并将作业状态改为“未分发”;按预定备份周期检查是否存在备份节点,当存在备份节点时,则向主控代理容器发送备份请求;
主控代理容器,接收主控代理的作业信息和计算节点地址,创建作业代理,并将其迁移到计算节点上;接收主控代理的备份请求,备份主控代理,并将其序列化处理成为字节流,传输至备份代理容器;
主监控代理,根据接收的节点监控代理发出的心跳信号和状态信息,向节点监控代理发送心跳确认消息,或者将计算节点的失效消息发送给主控代理;当接收到主控代理发送的计算节点状态查询请求时,发送所有空闲的计算节点状态;根据作业代理发送的迁移查询请求,设置迁移目标节点,并向作业代理发回迁移条件满足消息和迁移目标节点地址;
节点代理容器,根据接收的作业代理发送的迁移请求,将满足迁移条件的代理挂起,向作业代理发送挂起消息,挂起成功后将所述的满足迁移条件的代理迁移到所述的迁移目标节点上;接收迁移的字节流,对该字节流处理后向节点代理容器发送开始或重启该作业代理消息;
作业代理,根据接收到的节点代理容器发送的不同消息,对计算节点上当前作业进行处理,分析作业代理的运行情况,将当前的负载水平和作业运行情况发送给节点监控代理;根据主监控代理发送的迁移条件满足消息和迁移目标节点地址,向节点代理容器发送迁移请求;
节点监控代理,将接收的作业代理发送的负载水平和作业运行情况与心跳信号一起合并为心跳信号和状态信息发送给主监控代理;根据接收的主监控代理发送的心跳确认消息,对主节点是否失效进行判断,根据判断结果,向备份监控代理发出主节点错误消息或主节点确认消息;根据接收的备份监控代理发送的主节点地址更改消息,更改自身保存的主节点和备份节点的地址;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国运载火箭技术研究院,未经中国运载火箭技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910087661.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:链路检测方法
- 下一篇:混合动力汽车电机转子定位系统及其定位方法