[发明专利]一种基于微操作的Hadoop参数自动调优方法有效
申请号: | 201810426699.6 | 申请日: | 2018-05-07 |
公开(公告)号: | CN108647135B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 滕飞;李耘书;李天瑞;杜圣东 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 孙一峰 |
地址: | 610031 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 操作 hadoop 参数 自动 方法 | ||
本发明属于云计算技术领域,具体的说是涉及一种基于微操作的Hadoop参数自动调优方法。本发明主要是通过将mapreduce任务解耦确定为不同阶段不同类型微操作,然后根据选取的微操作建立单次执行时间与单次处理数据量的模型,根据建立的模型对运行过程进行重构组合得到阶段运行时间和系统参数的关系,最后寻找模型中使任务运行时间最短的参数组合。本发明的方法不随作业类型和集群配置变化而变化,同时查找最优参数耗时短,效率高,可移植性好。
技术领域
本发明属于云计算技术领域,具体的说是涉及一种基于微操作重构的Hadoop参数自动调优方法。
背景技术
分布式平台资源优化问题一直是用户重点关注的热点话题之一,特别的,分布式平台作业运行时间的优化一直是重点研究对象,近几年云服务的普及,缩短作业运行时间可以帮助租赁者提高工作效率降低租赁成本,同时帮助供应商实现资源利用最大化。
近些年,hadoop分布式计算平台已经在工业界得到成熟的、广泛的应用,而在学术界,hadoop平台各方面的优化依然是重点研究对象。随着hadoop版本的不断更新,其计算效率已不再是人们所关注的问题,庞大的生产集群逐渐产生昂贵的运维费用,而云端资源的不合理分配使得公司的成本问题愈加突显,因此,云端分布式计算框架在计算过程中的成本优化问题是当下各大IT公司亟待解决的难题之一。
针对hadoop作业运行时间的优化已有一些研究成果:
1)施展,冯丹,于瑞丽.一种基于机器学习的Hadoop参数自动调优方法及系统。
CN106202431A.2016.
该方法通过对不同作业类型的资源消耗特征进行聚类并建立不同的性能模型,自动得到对不同类应用影响较大的不同参数,并给出定量参数建议值。该方法有效解决了现有的基于经验规律的方法对用户经验的高依赖问题和定性参数建议的限制问题。
2)赵淦森,高晓杰,唐华.一种迭代型MapReduce作业的参数自动调优方法。CN106326005A.2017.
该方法通过执行实际作业并评估作业执行效果,在参数空间内确定新的参数配置组合再继续迭代执行作业,直到满足结束要求,该方法能提高每一次迭代MapReduce作业的运行效率,为用户带来方便,以及大大减少了时间资源的浪费。
从近两年的专利情况看,主要重点在刻画参数的变化对作业时间变化的影响。在Hadoop参数自动调优中还有另外一个人们同样很关注的重点,平台移植性。不同集群不同作业类型下如果快速建立好调优模型具有很重要的现实意义。
发明内容
本发明所要解决的,就是鉴于当下云计算服务的兴起,hadoop参数自动调优具有的重要现实意义,提出一种基于微操作重构的hadoop2.0参数自动调优方法。
本发明采用的技术方案是:
一种基于微操作的Hadoop参数自动调优方法,该方法用于优化MapReduce作业执行时的参数组合,其特征在于,包括以下步骤:
S1、建立微操作模型:
S11、选择微操作:对MapReduce任务进行解耦,选择Map任务中收集阶段单次内存写操作cm_micro_op和单次磁盘写操作cd_micro_op,以及Reduce任务中混洗阶段单次内存写操作sm_micro_op、单次内存溢出磁盘写操作sd_micro_op和单次文件合并磁盘写操作merge_micro_op为微操作;
S12、根据步骤S11选择的微操作,确定对其有影响的参数变化空间;
S13、参数取值不同决定单次微操作处理数据量的不同,在参数空间内每个维度离散取值并执行实际作业作为微操作模型基准测试,测试单次微操作在处理不同数据量情况下的速率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810426699.6/2.html,转载请声明来源钻瓜专利网。