[发明专利]一种作业性能预测方法、装置、介质、设备及系统有效
申请号: | 201810443167.3 | 申请日: | 2018-05-10 |
公开(公告)号: | CN108647137B | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 徐飞;蒋欢 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06F9/50;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200333 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 作业 性能 预测 方法 装置 介质 设备 系统 | ||
本发明公开了一种作业性能预测方法,包括获取大数据作业的作业相关参数;收集瞬时云主机的相关特征参数;建立Spark作业基本性能预测模型得到Spark作业完成时间;判断是否发生瞬时云主机撤回事件,若否,则基于Spark作业完成时间以及瞬时云主机的资源配置预测该资源配置下的Spark作业完成时间;若是,则基于关键RDD数据检查备份机制评估额外开销,并基于额外开销、Spark作业完成时间以及瞬时云主机的资源配置预测该资源配置下的Spark作业完成时间。本发明不管瞬时云主机有没有发生撤回都可以进行作业性能预测,在发生撤回事件时,通过关键RDD数据检查备份机制减少额外时间开销,帮助用户减少成本预算。本发明还涉及一种作业性能预测装置、介质、设备及系统。
技术领域
本发明属于大数据处理平台应用的作业性能预测技术领域,具体涉及一种面向瞬时云主机的大数据分析作业性能预测方法、装置、介质、设备及系统。
背景技术
随着大数据时代的到来,大数据技术也随之不断发展和更新,各种大数据处理平台如Apache Spark,MapReduce,Dryad等成为进行大数据分析处理的主要应用平台。在分布式大数据分析应用场景中,DAG(Directed Acyclic Graph,有向无环图)是一种非常常见的计算结构。DAG图是有向无环图的简称,DAG类型计算指的是将计算作业在内部分解成为若干个子任务,子任务之间的计算逻辑关系构建成DAG图。大数据分析作业是运行在大数据处理平台的应用程序,在执行期间的计算逻辑会被转化成DAG图进行表示,并且DAG图的形式与进行大数据分析的输入数据量无关。
为了满足在云计算环境中部署大数据分析应用的快速增长需求,大型云供应商(如亚马逊,谷歌,阿里云等)将越来越多的资金投入于云数据中心的建立。但实际上各大数据中心都存在大量的空闲资源,只有少数高峰时期资源被充分使用。因此云供应商将未充分利用的资源以低价可撤回瞬时云主机(例如亚马逊EC2现货实例,谷歌GCE抢占式实例和阿里云ECS竞价实例)的形式提供给用户使用,以最大化资源利用率和收益。这种瞬时云主机非常适合大数据分析这类可以方便控制运行时间的作业,但作业在执行期间可能面临瞬时云主机被撤回的风险,因此如何实现对低价可撤回瞬时云主机上的大数据分析作业进行性能预测,是一个十分值得探讨研究的问题。
为了实现对大数据分析作业的性能预测,已经有一些方法被提出用于Spark大数据处理平台上大数据分析作业的性能预测。但这些模型往往考虑不全面,有的模型只是根据计算和数据传输结构建立了一个关于输入数据量和云主机数量的简单通用线性函数模型,而有的模型则没有考虑任务并行对数据处理速率的影响,还有的则没有考虑中间数据Shuffle的时间花销。另外,已有的性能预测方法只能用于没有瞬时云主机撤回情况下的大数据分析作业,当有瞬时云主机发生撤回时,如何对丢失数据重计算的额外开销进行分析评估,并有效地预测作业完成时间的模型方法还没有。而且巨大的重计算的开销还会严重导致作业性能下降,因此也需要一种合适的容错机制来减少瞬时云主机撤回导致的性能损失,尽量保证云主机撤回时的作业性能。
发明内容
为了解决上述问题,本发明提供一种作业性能预测方法、装置、介质、设备及系统。
本发明的实施方式公开了一种作业性能预测方法,该方法包括:
获取大数据分析作业的作业相关参数;
收集作为计算资源的瞬时云主机的相关特征参数;
基于作业相关参数以及瞬时云主机的相关特征参数,建立Spark作业基本性能预测模型并得到Spark作业完成时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810443167.3/2.html,转载请声明来源钻瓜专利网。