[发明专利]计算机IO HUNG事件的预警方法、装置、设备和介质有效
申请号: | 202011181741.6 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112486716B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 张松坚;陈长钦;杨超;沈书航 | 申请(专利权)人: | 中国农业银行股份有限公司福建省分行 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/30 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 林燕 |
地址: | 350000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机 io hung 事件 预警 方法 装置 设备 介质 | ||
本发明提供一种计算机IO HUNG事件的预警方法、装置、设备和介质,方法包括:在各个虚拟机上部署采集机;采集机定时采集虚拟机上的数据,写入至监控报文文件;若是写盘成功,则发送状态信息报文;否,则不发送;所述状态信息报文包括采集时间;预警机定期检查服务端的报文;并从与当前时间最近的一条报文中读取出其中采集时间,与本机标准时间进行比较,若相差达到设定的偏差值,则进行预警;不但对各类计算机已知的和未知的IO HUNG问题有效,同时适用于部分传统故障,而且还有助于发现诸如定时任务失效、用户密码过期、时钟偏差等操作系统级问题。此外,通过实时采集到的报文数据,可生成客户机的性能报表,用于定期分析。
技术领域
本发明涉及计算机技术领域,特别涉及一种计算机IO HUNG事件的预警方法、装置、设备和介质。
背景技术
在当今IT科技风起云涌的时代,云计算的大势犹如奔腾咆哮的长江滚滚而来,势不可挡。当前企业各个业务对于IT的需求日益强烈,数据中心不断地集约整合,IT管理者越来越感受到了新型数据中心所带来的运维挑战,特别是日常运维中要面临众多故障。绝大部分故障靠常规的监控系统即可发现,但有一些故障,如IO HUNG导致计算机“失联”事件,却难以及时捕获。IO HUNG是一类极其诡异的故障,是计算机系统监控的一大难题,传统监控(如BMC)根本无能为力。如果说故障处理是系统运维的皇冠,那么IO HUNG事件的预警则是皇冠上的一颗璀璨的明珠。
IO HUNG即计算机IO挂起事件,可由诸多复杂因素引起,硬件(硬盘、RAID卡等)或软件(操作系统、数据库等)的BUG均能触发,属于数据中心服务器的一种极端故障。发生这种故障时,该机操作系统层面事实上已停止工作,基本无法登录,但网络层面通过ping该机却是连通的,让传统监控系统产生错觉,还误认为该机是正常的,以致事态扩大,甚至酿成生产事故。2019年3月3日国内某IT巨头的华北云计算数据中心的服务器突发IO HUNG事件,由于一时难以定位故障,影响客户的各类业务若干小时,造成巨大的经济损失和声誉影响。国外的“亚马逊云”近年也发生多次IO HUNG事件,而且这种IO HUNG事件不只发生在大型数据中心,小型数据中心也依然存在,比如我们作为某国有银行的一级分行数据中心有230台PC服务器,每年均会发生3~5起IO HUNG故障,发生概率大约是1.7%。如果是在有上万台甚至几十万台服务器的大型数据中心,那发生该类故障的数量将不容小觑。IO HUNG经常发生在PC服务器上,因为PC服务器的可靠性远远低于小型机。所以在十年前还是小型机唱主角的年代IO HUNG非常罕见。但时过境迁,在云计算时代,随着物美价廉的PC服务器的大规模应用,IO HUNG事件日益凸显,迫使我们不得不认真面对。实际上IO HUNG这种说法也就是近几年才提出的,这是对一种新鲜事物渐进的认识过程。早期发生的计算机“假死”或“失联”,其实均可属于这一类,但那时大家研究不足,还没一个统一的称呼罢了。IO HUNG的有效预警监控属于计算机界的一大难题。
那为什么传统监控发现不了IO HUNG故障呢?这里就以世界排名第一的计算机监控软件BMC为例来说明这个原因。BMC监控系统是由部署在客户机的代理程序(PatrolAgent)来自动检查本机状态,如果发现异常主动向服务端(BPPM Central)发送报警信息,服务端被动得到报警信息。这种报警方式有个必须的前提条件,要求客户机“能”将报警信息发送到服务端,即Patrol Agent要能正常工作。但实际上在发生IO HUNG时计算机往往已丧失发送能力,导致BMC监控系统无法获知IO HUNG故障。如果把传统监控打个比方,可以通过“看病”做个形象比喻:在传统监控体系中,病人(客户端)找医生(服务端)看病,病人要主动将自己得了什么病告诉医生,医生是被动知道的,一旦病人发生很严重的病连话都说不出来时,医生就完全不能知晓病人是什么情况,认为其是正常的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司福建省分行,未经中国农业银行股份有限公司福建省分行许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011181741.6/2.html,转载请声明来源钻瓜专利网。