[发明专利]一种基于统计分析的Spark拖延任务诊断方法在审
申请号: | 201811113777.3 | 申请日: | 2018-09-25 |
公开(公告)号: | CN109240890A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 刘延新;李亚琼;吴昊;李守超 | 申请(专利权)人: | 江苏润和软件股份有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210041 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 发明涉及一种基于统计分析的Spark拖延任务诊断方法,监测数据中心并行执行任务,从监测数据中推断出任务执行拖延的原因。在相同阶段,监测相同任务在不同节点的执行情况,搜集物理服务器的监测数据,分析Spark日志文件得到任务执行的监测数据。比较任务执行时间以检测拖延任务,分析拖延任务与正常执行任务的特征值的偏离程度以定位异常特征,从而诊断任务拖延的原因。 | ||
搜索关键词: | 监测数据 任务执行 统计分析 诊断 物理服务器 并行执行 日志文件 数据中心 异常特征 监测 推断 偏离 分析 搜集 检测 | ||
【主权项】:
1.一种基于统计分析的Spark拖延任务诊断方法,方法特征在于实现步骤如下:第一步,实时系统监测:使用系统监测软件持续监测执行Spark数据处理作业的各主机,搜集监测数据,包括CPU时间、磁盘每秒读写数据量、网络每秒收发数据量等;第二步,离线日志分析:分析Spark日志文件,从中提取信息,包括读取字节数、Shuffle读取字节数、Shuffle写入字节数、读入内存字节数、读入磁盘字节数、任务垃圾回收时间、序列化执行时间、逆序列化执行时间等;第三步,拖延任务检测:如果某个任务的持续时间大于所有任务的持续时间的1.5倍,则检测为延迟任务;第四步,异常特征诊断:如果特征值F>gq且F>mean(Fpeer)*p,其中,gq是相同任务在不同节点的特征值的q分位数,p和q为可调整的参数值,那么特征值F检测为异常,加入异常特征集合;第五步,异常特征过滤:如果Meanthead(F) & Meanttail(F) >e*F,其中,Meanthead和Meanttail是在任务开始之前和结束之后,时间间隔t内的平均特征值,e为可调整参数值,那么特征F不是异常特征,从异常特征集合中删除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏润和软件股份有限公司,未经江苏润和软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811113777.3/,转载请声明来源钻瓜专利网。