[发明专利]一种基于统计分析的Spark拖延任务诊断方法在审
申请号: | 201811113777.3 | 申请日: | 2018-09-25 |
公开(公告)号: | CN109240890A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 刘延新;李亚琼;吴昊;李守超 | 申请(专利权)人: | 江苏润和软件股份有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210041 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监测数据 任务执行 统计分析 诊断 物理服务器 并行执行 日志文件 数据中心 异常特征 监测 推断 偏离 分析 搜集 检测 | ||
发明涉及一种基于统计分析的Spark拖延任务诊断方法,监测数据中心并行执行任务,从监测数据中推断出任务执行拖延的原因。在相同阶段,监测相同任务在不同节点的执行情况,搜集物理服务器的监测数据,分析Spark日志文件得到任务执行的监测数据。比较任务执行时间以检测拖延任务,分析拖延任务与正常执行任务的特征值的偏离程度以定位异常特征,从而诊断任务拖延的原因。
技术领域
本发明涉及一种基于统计分析的Spark拖延任务诊断方法,属于软件技术领域。
背景技术
Spark是一种并行数据处理模型,而Stragglers是Spark的数据处理作业中异常缓慢的任务,会拖延整个作业的完成时间,在具有多个作业的数据中心中普遍存在。数据中心将数据处理的计算作业分解为许多任务,在多台机器上并行执行,在最后一个任务完成时聚合结果,Stragglers威胁数据中心的并行计算性能,其影响会随着任务的数量和系统的规模而增加。研究表明,在谷歌数据中心,拖延任务造成20%的作业的完成时间超过1.5倍。在Facebook和微软的数据中心,Straggler分别把平均完成作业的时间延长了47%和29%。当前的研究通过推测任务执行时间,复制Stragglers在另一台机器上重新执行 (JeffreyDean and Sanjay Ghemawat. 2008. Spark: Simplified Data Processing on LargeClusters. CACM, 51(1):107–113, 2008.) (Matei Zaharia, Andy Konwinski, AnthonyD. Joseph, Randy Katz, and Ion Stoica. Improving Spark Performance inHeterogeneous Environments. In 8th USENIX Symposium on Operating SystemsDesign and Implementation, pp. 29-41, 2008),或者避免使用性能较差的机器执行Straggler任务(Neeraja J. Yadwadkar, Ganesh Ananthanarayanan, and Randy Katz.Wrangler: Predictable and Faster Jobs Using Fewer Resources. In SOCC ’14. pp.1-14. 2014.) (Xiaoqi Ren, Ganesh Ananthanarayanan, Adam Wierman, and MinlanYu. Hopper: Decentralized Speculation aware Cluster Scheduling at Scale. InSIGCOMM ’15. pp. 379–392. 2015.)。这些方法假定,Stragglers是由不利的系统条件产生的,可以通过将任务分配给适当的机器来解决这些不利条件。同时,现有的Straggler迁移策略只处理出现的症状而不诊断问题的原因。虽然在数据中心产生大量任务执行轨迹可以帮助用来诊断Stragglers,但是从复杂的数据集中得到并解释问题原因非常困难。现有的诊断程序依赖于系统的领域知识和应用的最佳实践而难以扩展(GaneshAnanthanarayanan, Ali Ghodsi, Scott Shenker, and Ion Stoica. 2013. EffectiveStraggler Mitigation: Attack of the Clones. In Proceedings of the 10th USENIXConference on Networked Systems Design and Implementation.185–198.) ( JeffreyDean and Luiz André Barroso. 2013. The tail at scale. ACM Communication. 56(2): 74–80, 2013.)。
发明内容
本发明的目的:提出一种基于统计分析的Spark拖延任务诊断方法,从数据中心的并行作业执行轨迹中推断出任务执行延迟的原因。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏润和软件股份有限公司,未经江苏润和软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811113777.3/2.html,转载请声明来源钻瓜专利网。