[发明专利]一种云计算环境下的设备检测及故障预警系统及方法在审
| 申请号: | 201710712470.4 | 申请日: | 2017-08-18 |
| 公开(公告)号: | CN107491375A | 公开(公告)日: | 2017-12-19 |
| 发明(设计)人: | 王赛;张丞;王丞远;张宾;徐浩;徐伟华;刘范范;张悦;李明;曲延盛 | 申请(专利权)人: | 国网山东省电力公司信息通信公司;国家电网公司 |
| 主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/32;H04L12/24;H04L12/26;H04L29/08 |
| 代理公司: | 济南诚智商标专利事务所有限公司37105 | 代理人: | 李修杰 |
| 地址: | 250001 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 计算 环境 设备 检测 故障 预警系统 方法 | ||
技术领域
本发明涉及一种云计算环境下的设备检测及故障预警系统及方法,属于电力系统云数据处理技术领域。
背景技术
随着云计算的迅速发展,能源行业信息化在从传统的IT逐步转向云计算时代。在传统IT数据中心中,各类IT基础设施的检测与故障预警全部是独立的,不同的厂商只能够监控各自的产品,无法对整个基础架构层进行快速、统一、有效的检测。在云计算数据中心中,所有的基础设施资源以服务的方式提供给最终的用户者,即IaaS(Infrastructure as a Service,基础设施即服务),用户可以方便的获取需要的计算、存储、网络资源。但对于运维者来说,如何对云平台下的异构的硬件设备进行统一的检测、快速的定位故障,对实现高效化、精细化运维具有重大意义。
目前,市场主流的IT设备有通用的,但也有专用的,主要分为服务器类、存储类、网络类、安全类、基础设施类,在各自的领域都有专门的设备检测及故障预警系统,但没有一个兼容不同类型设备的统一平台,造成了如下问题:
(1)监控信息孤岛,运维效率低下。在云计算的环境,传统的监控和报警分散在不同的平台中,管理员需要同时在多个平台间切换运维,当有突发故障发生时,需要人工的按照物理拓朴逐个环节逐个界面进行紧急排查,在时效性、准确性上都无法保证,对故障的及时定位和预警造成很大影响。
(2)无法同时兼容各类的检测机制,监控不全面。经过30多年IT的发展,针对设备的监控、检测、故障定位技术不停的发展,出现了很多种不同的监控机制、监控协议等,比如SNMP(Simple Network Management Protocol,简单网络管理协议)、IPMI(Intelligent Platform Management Interface,智能平台管理接口)、Agent(代理程序)等等,而现有的各类监控机制,每一类只能支持其中的1~2种协议,无法全面地对整个数据中心进行统一监控,存在监控的死角,当故障点出现在监控死角时,将严重影响故障处置。
(3)监控平台封闭,监控和预警管理简单。无法灵活设置定制化检测指标、报警阀值、报警方式等。传统的监控报警平台都是由各设备厂商自行研发,因为涉及到商业竞争,无法兼容其他厂商的产品,也未提供定制化的接口。在云计算时代下,云平台更像是一个生态系统,承载了生态圈内的各种设备和应用,这些设备的监控指标、阀值、展示方式差异大,如何通过一个平台收集不同类型的指标,定制不同的展示方式等问题始终未能解决。现有的监控平台能够支持在线的设备数量有限,很难满足大于1000台设备时的实时性要求,只能通过增加新的平台来实现,极大增加了运维的成本。
综上所述,现有技术无法做到对云平台下的异构的硬件设备进行有效地的统一检测和快速故障定位,导致其运维效率低。
发明内容
针对现有技术的不足,本发明提出了一种云计算环境下的设备检测及故障预警系统及方法,其能够对云平台下的异构的硬件设备进行统一的检测和快速的故障定位,有效提高运维效率。
本发明解决其技术问题采取的技术方案是:
本发明实施例提供的一种云计算环境下设备检测及故障预警的系统,它包括:
实时监控模块,用以通过接口方式兼容不同种类的主动和被动采集方式,对被监控的主机、网络、服务、系统事件进行捕捉,并进一步对采集到的监控项进行汇总;
监控信息呈现模块,用以将实时监控模块传递过来的数据信息进行呈现,以实现对云计算环境运行状态的实时全景状态展现;
故障预警模块,用以基于实时采集模块传递过来的数据进行分析监测,将结果与管理人员定义的阈值进行比对,当超过阈值时触发报警信息;
告警模块,用以接收来自故障预警模块的预警事件,通过日志保存相关的故障告警信息,并及时做出告警呈现。
作为本实施例一种可能的实现方式,所述实时监控模块包括:
监控采集模块,用以采集云计算环境中主机、网络、服务和系统事件信息;
采集汇总模块,用以将采集到的各种数据信息进行汇总。
作为本实施例一种可能的实现方式,所述采集汇总模块包括直通采集汇总模块和代理采集汇总模块,所述直通采集汇总模块用以将收集的被监控设备数据直接写入本系统的Server服务器端,所述代理采集汇总模块用以将收集的被监控设备数据通过Proxy代理传递给Server服务器端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司信息通信公司;国家电网公司,未经国网山东省电力公司信息通信公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710712470.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种设备停机状态的判断方法及计算设备
- 下一篇:一种物联网云终端计算机





