[发明专利]基于瓶颈资源定位及参数调优的大数据平台测试方法在审
| 申请号: | 202110692336.9 | 申请日: | 2021-06-22 |
| 公开(公告)号: | CN113495840A | 公开(公告)日: | 2021-10-12 |
| 发明(设计)人: | 李红辉;张骏温;王睿;杨秀杰;王文浩 | 申请(专利权)人: | 北京交通大学 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F11/30;G06F9/50 |
| 代理公司: | 北京市商泰律师事务所 11255 | 代理人: | 姜威 |
| 地址: | 100044 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 瓶颈 资源 定位 参数 数据 平台 测试 方法 | ||
1.一种基于瓶颈资源定位及参数调优的大数据平台测试方法,其特征在于,包括:
S1将开源工具与大数据平台集成后对大数据平台进行资源的日常监控;
S2根据日常监控资源计算各资源的信息增益率;
S3根据所述信息增益率,基于改进信息增益的瓶颈资源定位方法定位出导致大数据平台出现性能瓶颈的瓶颈资源;
S4根据定位的瓶颈资源,基于敏感度筛选出调优参数集;
S5利用自动化脚本对调优参数集的参数进行修改,得到最优的参数配置。
2.根据权利要求1所述的方法,其特征在于,所述开源工具为Ganglia。
3.根据权利要求1所述的方法,其特征在于,所述将开源工具与大数据平台集成包括:
安装相关组件:在每一个被监控节点和主控节点安装Ganglia工具及其相关组件;在每一个被监控节点安装Gmond来收集资源使用信息,在主监控节点安装Gmetad来收集gmond节点广播的数据信息的同时还需要安装RRDTool来存储收集的相关数据,安装Gweb以图形的方式显示数据信息;
对Ganglia进行配置:
对于主监控节点修改gmetad.conf文件中的数据源相关的参数,主要包括集群名称、监控服务的地址和端口;对于被监控节点,修改gmond.conf文件,其中该配置文件中的集群名称参数与gmeta.conf保持一致,从而保证主从节点共同服务;
修改大数据平台的相关配置文件:
修改Hadoop的配置文件hadoop-metrics2.properties和Hbase的配置文件hadoop-metrics2.properties,使得Ganglia从细粒度地监控Hadoop和Hbase地相关信息。
4.根据权利要求1所述的方法,其特征在于,所述计算各资源的信息增益率,包括:
S41将Ganglia工具收集负载执行时间段的各种资源的利用率数据离散化;
S42计算离散化后各个数据集的信息熵以及各个数据集划分的数据子集的信息熵,然后计算每种资源的信息增益;
S43定义资源a在资源数据总集合D中的信息熵IV(D,a),然后在IV(D,a)的基础上定义按资源a划分资源数据集合D的信息增益率。
5.根据权利要求1所述的方法,其特征在于,所述基于改进信息增益的瓶颈资源定位方法,包括:在执行测试时不断加大大数据平台负载的压力,同时收集相关资源利用率数据,在大数据平台性能出现瓶颈后,将采集到的资源利用率和时间满意度离散化,计算各个资源的信息增益率,最后将具有最高信息增益率的资源作为该负载的瓶颈资源。
6.根据权利要求1所述的方法,其特征在于,所述S5由选定参数集合、输入参数值列表、自动修改参数脚本和剪枝策略步骤得到。
7.根据权利要求6所述的方法,其特征在于,所述剪枝策略包括:
记录默认参数配置下的负载执行时间T0;
当其他参数配置下,如果负载执行时间小于T0,则将时间合对应的参数配置记录到结果文件中;如果负载执行到T0时刻还未执行完毕,不再继续执行测试,对应的负载时间做统一的特殊记录,不再继续等待该负载执行结束,直接进行下一次参数配置下的测试;
当所有参数集合都完成配置且测试结束后,从记录测试结果的文件中找出最短执行时间的参数配置,即为选定参数集合中的最优配置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学,未经北京交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110692336.9/1.html,转载请声明来源钻瓜专利网。





