[发明专利]一种服务进程故障检测方法、装置及服务节点无效
申请号: | 201210135518.7 | 申请日: | 2012-05-03 |
公开(公告)号: | CN103383689A | 公开(公告)日: | 2013-11-06 |
发明(设计)人: | 代志远 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 服务 进程 故障 检测 方法 装置 节点 | ||
技术领域
本申请涉及数据库技术领域,尤其涉及一种服务进程故障检测方法、装置及服务节点。
背景技术
当前,随着大型互联网网站在线业务的迅速发展,业务数据量越来越大,任何一个与用户相关的在线业务的数据量都在亿级别,每日系统调用次数上亿甚至百亿,且历史数据不能轻易删除,这需要有一个海量分布式文件系统,能对万亿字节(TB,Terabyte)级甚至拍字节(PB,Petabyte)级别的数据提供在线服务。由于HBase有如下几个特点:首先HBase是No-SQL的一个典型实现,提升了系统的可扩展性;其次HBase支持线性水平扩展,HBase服务能力可以随服务器的增长而线性增长,极大提升了系统的可伸缩性和运算能力;最后HBase底层是建立在Hadoop分布式文件系统(HDFS)之上,可以搭建在廉价的PC机集群上,因此,HBase是一种比较合适的选择。
如图1所示,为HBase的架构示意图,HBase在完全分布式环境下,由集群管理节点(Master)负责管理RegionServers集群的负载均衡以及资源分配,ZooKeeper服务器负责集群元数据的维护并且通过监控各服务节点上的服务进程来监控集群的状态以防止单点故障,每个RegionServer会负责具体数据块的读写,HBase所有的数据存储在HDSF系统上。其中,Zookeeper服务器利用会话(seesion)来监控服务进程,具体的,服务节点创建服务进程时,通知在Zookeeper服务器,Zookeeper服务器为该服务进程创建一个临时节点,该服务节点定期向Zookeeper服务器发送该服务进程的心跳消息,如果该服务节点在超过预设的session超时时长后没有向Zookeeper服务器发送心跳消息,则说明 该服务节点上的服务进程发生异常,Zookeeper服务器将该服务据节点上的服务进程的状态设定为超时,并删除该服务进程对应的临时节点,同时通知Master,以启动容灾处理。
上述过程中,从判断服务进程是否出现故障至通知Master进程启动容灾处理,需依赖于Zookeeper设定的session超时时长,目前,session超时时长一般设置为90s左右,由于HBase的服务是单点的,亦即当服务进程出现故障时,该服务进程所在服务节点所服务的数据在恢复前是无法读写的,从而使得Hbase容灾恢复响应时间较长,由于在线服务系统对服务响应时间要求较高,对于几十秒的响应时间是无法容忍的,因此,如何缩短Hbase容灾恢复响应时间成为现有技术中亟待解决的技术问题之一。
发明内容
本申请实施例提供一种服务进程故障检测方法、装置及服务节点,用以简化服务进程监控流程,缩短HBase容灾恢复响应时间。
本申请实施例提供一种服务进程故障检测方法,包括:
第一服务节点启动服务进程,并启动本地的镜像监控进程,其中,所述第一服务节点调用启动后的服务进程提供数据查询服务;
所述第一服务节点通过所述镜像监控进程定期检查所述服务进程的状态,并确定服务进程状态是否异常;
在所述镜像监控进程确定所述服务进程状态异常时,所述第一服务节点通知集群管理节点Master。
本申请实施例提供一种服务进程故障检测装置,包括:
启动单元,用于启动服务进程,并启动该装置本地的镜像监控进程,其中,本装置调用启动后的服务进程提供数据查询服务;
检查单元,用于通过所述镜像监控进程定期检查所述启动单元启动的服务进程的状态,并确定服务进程状态是否异常;
第一通知单元,用于在所述检查单元确定所述服务进程状态异常时,通知集群管理节点Master。
本申请实施例提供一种服务节点,包括上述服务进程故障检测装置。
本申请实施例提供的服务进程故障检测方法、装置及服务节点,服务节点在服务进程启动时,启动本地的镜像监控进程,由本地的镜像监控进程对服务进程进行监控,从而,服务节点无需定时向Zookeeper服务器发送本地服务进程的心跳消息,简化了服务进程的监控流程,同时由于镜像监控进程处于本地,当发现服务进程异常时,能够及时通知Master启动容灾处理,无需依赖Zookeeper服务器预先设置的session超时时长,从而,缩短了容灾恢复响应时间。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210135518.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页的在线编辑方法和装置
- 下一篇:自身电容型触控装置与其操作方法