[发明专利]基于RF算法的MySQL数据库参数筛选方法有效
| 申请号: | 202011299781.0 | 申请日: | 2020-11-19 |
| 公开(公告)号: | CN112463763B | 公开(公告)日: | 2023-09-29 |
| 发明(设计)人: | 杨晓春;马红;舒昭维;王斌 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/215;G06F16/28;G06F18/243 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李梁 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 rf 算法 mysql 数据库 参数 筛选 方法 | ||
1.一种基于RF算法的MySQL数据库参数筛选方法,其特征在于:包括以下步骤:
步骤1:采集MySQL数据库参数制作样本数据集,对样本数据集中的每条样本数据进行测试得到每个MySQL数据库参数的取值、吞吐量、工作负载的增删改查比例、表的个数、列的个数、二级索引的个数信息;
步骤2:对样本数据进行预处理,所述预处理包括归一化、向量化;
步骤3:匹配工作负载的数据,根据工作负载的增删改查比例、表列个数的信息来匹配工作负载对应的MySQL参数;
步骤4:基于随机森林算法计算MySQL参数对数据库性能的重要性,进行默认值判定,对重要性大小进行排序,选出top K的参数,完成对进行MySQL参数的筛选,并对筛选后的MySQL参数进行数据库调优;
步骤4.1:构建随机森林,针对样本数据集,遍历每一个参数的每一个值,用该值将样本数据集分成两个集合,左集合S_left包含小于等于该值的样本、右集合S_right包含大于该值的样本,每一个集合称为一个节点,分别计算这两个节点的均方误差mse,找到使得左节点的均方误差和右节点的均方误差最小的值,记录下此时的参数名和参数值,即为最佳分割特征和最佳分割值,均方误差计算如下式所示;
其中,MSE为均方误差,其中N是样本数量,i是每一个数据样本,fi为每一个样本点的目标值,yi为样本点i的平均值;
步骤4.2:基于随机森林特征选择法参数排序进行修改,使用基尼指数以及参数在树中出现的最高层级两种方法对参数重要性进行评估,得到参数的两种排序,对每个参数的两种排序序号进行相加求和再平均,得到参数的重要性排序;
所述使用基尼指数对参数重要性进行评估,在计算第i个参数的重要性的时候,随机对样本特征加入噪声干扰,计算其基尼不纯度,不纯度越高,说明这个参数越重要,由此对参数进行排序;
所述使用参数在树中出现的最高层级对参数重要性进行评估,对于MySQL而言,越早出现的参数对数据库性能的影响越大,没出现过的属性层级为树的高度+1,取所有树的均值;
步骤4.3:对参数默认值进行判定;随机在数据集中取M个数据,然后循环M次,每次循环把这条数据中的要判定的参数设为默认值和其他随机值,部署在数据库中进行吞吐量测试,比较吞吐量,有参数的默认值吞吐量高于其他值记为1分,M次得分求和,满分为M分,及格线为m分,m≤M,若M次得分大于m,则认为该参数默认值不需要调优,从排序队列中删除该参数;若小于m,则认为该参数默认值需要调优,在排序队列中保留该参数;
步骤4.4:默认值判定之后,得到最终的参数重要度排序列表,选择前K的参数进行数据库调优。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011299781.0/1.html,转载请声明来源钻瓜专利网。





