[发明专利]一种分布式数据处理系统中的内存预估与配置优化的方法有效
申请号: | 201810184254.1 | 申请日: | 2018-03-06 |
公开(公告)号: | CN108415776B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 石宣化;金海;柯志祥;吴文超 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/445 |
代理公司: | 北京海虹嘉诚知识产权代理有限公司 11129 | 代理人: | 何志欣;侯越玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据处理系统 中的 内存 预估 配置 优化 方法 | ||
本发明涉及一种分布式数据处理系统中的内存预估与配置优化的方法,至少包括:将经过针对应用jar包中程序代码的条件分支和/或循环体分析及处理的程序数据流与数据特征库进行匹配,并基于匹配成功的结果预估至少一个阶段的内存上限,基于所述内存上限对应用程序进行配置参数优化,基于优化后应用程序的运行过程采集程序数据的静态特征和/或动态特征并进行持久化记录。本发明与机器学习进行内存预估的黑盒模型不同,机器学习预测的结果准确性不一定高,而且难以做到每个阶段的细粒度预测。而本发明利用程序分析和已有的数据特征较精确地预测到整体的内存占用,可以根据程序分析预估出job的每个阶段内存使用情况,做出更进一步的细粒度配置优化。
技术领域
本发明涉及分布式数据处理系统技术领域,尤其涉及一种分布式数据处理系统中的内存预估与配置优化的方法和系统。
背景技术
随着因特网和移动互联网的发展,海量数据促使着分布式数据处理系统在大数据处理上的应用越来越广泛,发展也非常迅速。具有代表性的分布式处理系统Hadoop采用MapReduce算法,可以支持单台机器所不能完成的海量数据分析和处理。但Hadoop因为要频繁的读写磁盘所以引来IO性能上的瓶颈。鉴于这些欠缺,新一代基于内存计算的分布式数据处理系统例如Spark,Flink开始出现并快速发展。Spark以RDD为基本数据单位,将SQL,Streaming,MapReduce等模型划归到一个平台下成为一个完整的系统架构。Spark等分布式系统将大量重要的中间数据缓存在内存来加速迭代计算应用。因此处理数据时需要大量的内存空间。
现有的云平台上可能有多个分布式任务在进行处理,而内存资源是共有的,所以内存的合理分配显得尤为重要。这里以Spark为例,当给一个Spark应用任务分配过少的内存会导致Shuffle或者cache中的数据spill到磁盘,导致大量的IO操作,失去了内存计算的优势,最终导致任务性能的整体下降,甚至会内存溢出。若分配过多的内存,则会导致内存资源的冗余和浪费。
目前内存预估是采用黑盒模型,采用机器学习的方式。首先总数据集随机划分成多个小数据集,然后由分布式应用进行处理,对运行时的特征和内存使用进行统计。然后对训练集进行建模,最后通过正式数据集的特征来预测内存的使用。同时这种黑盒模型也可以通过应用和数据的特征来对任务的运行时间进行预测。
然而,上述方法存在一定的缺陷和局限性:一方面是机器学习只能针对某种特定类型的应用,某个应用训练出来的模型对其他应用起效甚微,所以针对不同应用经常要建立多个模型,具有一定的局限性。另一方面,由于是机器学习的黑盒模型,所以预测的结果具有一定不确定性,与真实的运行内存可能具有一定差异。而且分布式应用大多包含多个阶段,比如各阶段的内存变化很难动态预估到。
中国专利(CN 106598644A)公开了一种终端设备的内存优化方法,其特征在于,其包括:当终端设备接收到安装应用的请求时,获取所述应用的包名及版本号;根据所述应用的包名及版本号从预先配置的服务端获取所述应用需占用的第一内存数据,并将第一内存数据与系统为所述应用设置的内存x值进行比较;当所述第一内存数据大于内存阈值时,提示用户所述应用占用内存过大,并根据用户的操作指令确定是否继续安装所述应用。该专利通过对待安装应用的内存数据进行判断,当安装应用占用内存过大的应用时,会给予用户提示,让用户决定是否继续安装该应用。但是,该专利不能够利用程序分析来预估应用需要的最佳内存,也无法动态预估应用各阶段的内存变化。
发明内容
针对现有技术之不足,本发明提供一种分布式数据处理系统中的内存预估与配置优化的方法,其特征在于,所述方法至少包括:将经过针对应用jar包中程序代码的条件分支和/或循环体分析及处理的程序数据流与数据特征库进行匹配,基于匹配成功的结果预估至少一个阶段的内存上限并对应用程序进行配置参数优化,基于优化后应用程序的运行过程采集程序数据的静态特征和/或动态特征并进行持久化记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810184254.1/2.html,转载请声明来源钻瓜专利网。