[发明专利]一种基于统计分析的Spark拖延任务诊断方法在审

专利信息
申请号: 201811113777.3 申请日: 2018-09-25
公开(公告)号: CN109240890A 公开(公告)日: 2019-01-18
发明(设计)人: 刘延新;李亚琼;吴昊;李守超 申请(专利权)人: 江苏润和软件股份有限公司
主分类号: G06F11/30 分类号: G06F11/30;G06F11/34
代理公司: 暂无信息 代理人: 暂无信息
地址: 210041 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于统计分析的Spark拖延任务诊断方法,监测数据中心并行执行任务,从监测数据中推断出任务执行拖延的原因。在相同阶段,监测相同任务在不同节点的执行情况,搜集物理服务器的监测数据,分析Spark日志文件得到任务执行的监测数据。比较任务执行时间以检测拖延任务,分析拖延任务与正常执行任务的特征值的偏离程度以定位异常特征,从而诊断任务拖延的原因。
搜索关键词: 监测数据 任务执行 统计分析 诊断 物理服务器 并行执行 日志文件 数据中心 异常特征 监测 推断 偏离 分析 搜集 检测
【主权项】:
1.一种基于统计分析的Spark拖延任务诊断方法,方法特征在于实现步骤如下:第一步,实时系统监测:使用系统监测软件持续监测执行Spark数据处理作业的各主机,搜集监测数据,包括CPU时间、磁盘每秒读写数据量、网络每秒收发数据量等;第二步,离线日志分析:分析Spark日志文件,从中提取信息,包括读取字节数、Shuffle读取字节数、Shuffle写入字节数、读入内存字节数、读入磁盘字节数、任务垃圾回收时间、序列化执行时间、逆序列化执行时间等;第三步,拖延任务检测:如果某个任务的持续时间大于所有任务的持续时间的1.5倍,则检测为延迟任务;第四步,异常特征诊断:如果特征值F>gq且F>mean(Fpeer)*p,其中,gq是相同任务在不同节点的特征值的q分位数,p和q为可调整的参数值,那么特征值F检测为异常,加入异常特征集合;第五步,异常特征过滤:如果Meanthead(F) & Meanttail(F) >e*F,其中,Meanthead和Meanttail是在任务开始之前和结束之后,时间间隔t内的平均特征值,e为可调整参数值,那么特征F不是异常特征,从异常特征集合中删除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏润和软件股份有限公司,未经江苏润和软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811113777.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top