[发明专利]影响大数据系统性能的关键参数查找方法及装置有效
申请号: | 201810289920.8 | 申请日: | 2018-04-03 |
公开(公告)号: | CN108376180B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 王宏志;赵志强 | 申请(专利权)人: | 哈工大大数据(哈尔滨)智能科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 北京格允知识产权代理有限公司 11609 | 代理人: | 周娇娇;谭辉 |
地址: | 150001 黑龙江省哈尔滨市松北区高新技术产业开发区哈工大*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 影响 数据 系统 性能 关键 参数 查找 方法 装置 | ||
本发明涉及一种基于聚类分析的影响大数据系统性能的关键参数查找方法及装置,其中方法包括:将大数据系统定义为由参数(w,p,t)组成的结构,其中w为应用层的负载程序向量,p为平台层的配置参数向量,t为程序运行所需时间;提取历史工作数据,根据应用层的负载进行分类,将负载程序向量w相同的数据样本分成一类;在每类负载相同的数据样本中,按照程序运行所需时间t从大到小进行排序,得到配置参数向量p的排序,对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数。本发明采用聚类分析的方法对大数据计算系统中的参数进行排序,避免了人工寻找影响参数的难题,不仅节省了人工查找参数的时间,而且方法简单快捷。
技术领域
本发明涉及数据处理领域,尤其涉及一种基于聚类分析的影响大数据系统性能的关键参数查找方法及装置。
背景技术
近年来,大数据探索和分析在各个领域蓬勃发展。大数据系统可分为3个层次:(1)基础层:即基础数据加工层,将硬件资源分配给支持计算任务的执行平台层,(2)平台层:即核心业务层,既为应用层提供了一个易于处理数据集的接口,又能管理基础设施层分配的资源,(3)应用层:即预测结果输出层,预测出专家决策,给出大数据分析结果。
平台层在大数据系统中起到了承上启下的作用,也是一个大数据系统的核心部分。Hadoop系统中的MapReduce(映射规约)就是平台层中的一种模型。Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。MapReduce是Hadoop下的一种编程模型,用于大规模数据集(大于1TB)的并行运算。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(即Map处理)发送到多个节点上,之后再以单个数据集的形式加载(即Reduce处理)到数据仓库里。
配置参数对MapReduce工作性能有很大的影响。优质的配置参数使MapReduce工作出色,而配置参数错误是Hadoop的MapReduce系统性能退化和导致系统失效的主要原因。因此为了帮助平台管理员优化管理系统性能,需要寻找出影响拖慢系统性能的参数,以追求更快的工作表现。由于大规模分布式系统的行为和特点过于复杂,系统中存在数百参数,主要影响系统性能的配置参数有几十个,使配置参数调优变得麻烦。传统方法中,管理员对配置参数进行逐个认知学习,根据历史经验找出拖慢系统性能的参数。这种人工方法寻找影响系统性能的参数,非常复杂繁琐,寻找参数需要消耗大量时间,并基于人工经验,且所得效果不是很好,系统整体工作需要消耗很长时间。
发明内容
本发明要解决的技术问题在于,针对现有技术中的上述缺陷,提供一种基于聚类分析的影响大数据系统性能的关键参数查找方法及装置,通过对历史工作数据的排序,得出对系统性能影响最大的参数,方便系统管理员及时调整相应参数。
本发明第一方面,提供了一种基于聚类分析的影响大数据系统性能的关键参数查找方法,包括以下步骤:
结构定义步骤、将大数据系统定义为由参数(w,p,t)组成的结构,其中w为应用层的负载程序向量,p为平台层的配置参数向量,t为程序运行所需时间;
负载分类步骤、提取历史工作数据,根据应用层的负载进行分类,将负载程序向量w相同的数据样本分成一类;
参数查找步骤、在每类负载相同的数据样本中,按照程序运行所需时间t从大到小进行排序,得到t从大到小时配置参数向量p的排序,对比t值最大的n个参数向量和最小的n个参数向量,找出全部参数向量组中维度差别最大的前q%的参数作为该类负载的影响大数据系统性能的关键参数,其中4≤n≤8,4≤q≤8。
优选地,所述应用层的负载程序向量选自以下一组参数:运行队列中的任务数、系统调用的速率、CPU上下文切换率、空闲CPU时间百分比、空闲存储器的大小和1分钟内的平均负载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈工大大数据(哈尔滨)智能科技有限公司,未经哈工大大数据(哈尔滨)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810289920.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆信息查询方法、系统及存储介质
- 下一篇:基于ELK的日志服务平台
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置