[发明专利]一种针对Hadoop集群异常节点实时监测方法在审

专利信息
申请号: 201711049620.4 申请日: 2017-10-31
公开(公告)号: CN108280008A 公开(公告)日: 2018-07-13
发明(设计)人: 田帅;汪海涛 申请(专利权)人: 昆明理工大学
主分类号: G06F11/30 分类号: G06F11/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 实时监测 异常节点 日志 异常检测技术 任务完成 时间度量 实时输出 数据信息 异常状态 综合考虑 弹性的 实时性 耦合性 归类 衡量 转换 转化 统计 分析
【说明书】:

发明涉及一种针对Hadoop集群异常节点实时监测方法,属于Hadoop集群异常检测技术领域。本发明通过收集hadoop实时输出的日志,继而分析和归类该日志并统计其数据信息,根据其信息进行转换并求得z分数,判断该分数是否大于阈值来确定节点的异常状态。本发明充分考虑了hadoop任务中map任务与reduce任务耦合性大的特点,把两种任务综合考虑并转化,使精确度更高;本发明用map任务完成度作为时间度量,更加弹性的衡量了方法的实时性。

技术领域

本发明涉及一种针对Hadoop集群异常节点实时监测方法,属于Hadoop集群异常检测技术领域。

背景技术

科学技术发展必然给社会带来相当大的变化,大数据时代便随着科技的发展应运而生,在此环境下,海量数据计算与存储框架也层出不穷,Hadoop是apache公司根据Google发表的MapReduce思想开发的并行分布式框架,可以有效地将大数据平均分割成很小的部分,分配给集群中单个节点运行。作为MapReducee框架技术的实现之一,hadoop已经被包括百度、华为、yahoo、facebook等多个研究机构和公司使用,这些企业部署的hadoop集群节点数大多成千上万。随着集群规模的不断增大,各种问题接踵而至,节点维护便是其中之一。当集群出现性能问题时,及时定位到问题节点并确定导致该问题的原因是异常困难的,且某类问题不会导致节点直接崩溃却只会使运行速度变缓慢、效率显著降低。

发明内容

本发明要解决的技术问题是提出一种针对Hadoop集群的异常节点实时检测诊断方法,用以实时检测hadoop运行任务时节点的异常状态。

本发明的技术方案是:一种针对Hadoop集群异常节点实时监测方法,首先收集hadoop 实时输出的日志,继而分析和归类该日志并统计其数据信息,根据其信息进行转换并求得z 分数,判断该分数是否大于阈值来确定节点的异常状态。

所述方法的具体步骤如下:

Step1、实时收集hadoop任务输出的状态日志,提取相关信息,包括:正在工作的节点编号,每个节点正在运行的map任务、reduce任务数;并统计出每个节点已经运行了多少个 map task数和reduce task数,每个任务的运行时间和未完成任务已经运行多少时间;

Step2、计算每个节点的逻辑完成数:

定义逻辑转换值为节点当前状态下,reduce任务运行时间可转换成多少个map任务的值,具体为计算单个节点reduce任务总运行时长,包括已经运行完成和正在运行的任务;用该时长除以该节点最近完成的一个map任务时间得出的值即为逻辑转换值,逻辑完成数为该节点目前已经执行完成的map task数量+逻辑转换值;

Step3、计算阈值:

考虑到可能会搭建在小集群(节点少小于等于30个),采用t分布来确定阈值,当给定置信度与自由度时,相应的阈值就能确定;置信度可根据实际情况设置,该值越小,精度越高,但漏报几率也增高,推荐为0.01;自由度值为运行任务正在工作的节点数减一,如四个节点正在运行任务,则此时自由度为4-1=3。

Step4、计算每个节点的z分数:

采用t分布下的标准分数(z_scorei)来衡量节点性能的偏移,该值越大说明偏移越多,当其大于阈值时,将其判定为离群点,其中,t分布下的z分数计算公式为:

式中,x为该节点的逻辑完成数,μ代表所有节点逻辑完成数的均值,σ代表其相应的标准差,Freedom为自由度;

Step5、判断z分数是否小于均值,如果是,则该节点目前是正常的;如果如果否,则该节点是异常节点。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711049620.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top