[发明专利]一种基于分层随机森林的变量重要性分析方法有效
申请号: | 202010030606.5 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111260201B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 何飞;王立东;胡宇星;张志研 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06Q10/0639 | 分类号: | G06Q10/0639;G06F18/214;G06N20/00 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;邓琳 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分层 随机 森林 变量 重要性 分析 方法 | ||
1.一种基于分层随机森林的变量重要性分析方法,其特征在于,包括以下步骤:
S1、获取待处理数据集,所述待处理数据集中的每个样本具有多个变量;
S2、对所述待处理数据集进行预处理,剔除异常样本和空值;
S3、对预处理后的数据集,将其中的变量按照加工工序进行分组;
所述步骤S3包括:
将上游的化学成分变量作为第一工序的变量,将下游的工艺变量作为第二工序的变量,进行分组;
S4、抽样生成多个训练集,为每一个训练集建立分层决策树;
所述步骤S4包括:
利用Bootstrap抽样方法,采用多次有放回随机抽样技术从原始样本中抽取预定数量的样本,生成多个训练集;
对于多个训练集,首先对第一组变量利用最小化准则进行划分,得到第一层及其叶节点,然后以第一层的叶节点作为下一层的根节点,对下一组变量进行划分,最终建立分层决策树;
S5、将多棵分层决策树融合形成分层随机森林模型;
S6、利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析,生成变量重要性排序;
所述步骤S6包括:
对于连续质量问题,利用Morris筛选法结合分层随机森林模型对多工序加工过程进行变量重要性分析,利用基效应的绝对值均值来衡量变量的重要性;
将同一个变量在两次结果中的序号差作为距离,将所有变量的距离总和称为总距离,以总距离作为衡量波动性的指标,找到最合适的森林规模;
具体地,对于连续质量问题,利用Morris筛选法来进行变量重要性分析的具体计算步骤如下:
1)定义空间:
Ω:X=X1,X2,…,Xk,Xi={0,1/p-1,2/p-1,…,1};
在Ω中随机选择某样本作为出发点,运行一次模型,计算其输出;
2)改变该样本中变量i的取值,变化量Δ为1/(p-1)的倍数,p等于样本容量N或N+1,p为偶数,变化量Δ=p/[2(p-1)],确定Δ的正负,并将新样本放回Ω;再运行一次模型,计算其输出;
3)由步骤1)、2)的输出,计算基效应di(x);
4)继续改变该样本点其他变量,计算输出;直至所有输入变量均得到变化,一共运行k+1次,k为变量个数;
5)重复步骤1)-4),每次均从不同的起始点出发,共重复r次;则模型共运行了r(k+1)次;
6)按上述方法计算μ*,作为衡量变量重要性的指标;其中,μ*为各变量基效应分布的绝对值均值;
由于结果存在波动性,所以同一个变量在两次结果中的序号并不一定相同,将Rank1和Rank2中同一个变量的序号差作为距离,将所有变量的距离总和称为总距离D;即,采用Morris方法对分层随机森林模型进行分析,计算各变量重要性,将结果进行归一化并从大到小进行排序,重复操作一次,得到两个结果;变量Xi在两次结果中的序号为和规定距离总距离D=∑di,将D作为衡量波动性的指标。
2.根据权利要求1所述的变量重要性分析方法,其特征在于,在所述步骤S1中,获取待处理数据集的方法为采用原始数据集或在原始数据集上随机抽取。
3.根据权利要求1所述的变量重要性分析方法,其特征在于,所述步骤S2还包括:
使用SMOTE过采样方法消除正常样本和异常样本的不平衡问题。
4.根据权利要求1所述的变量重要性分析方法,其特征在于,在对分层决策树的每个节点进行最佳变量选择时,并非全体变量参与选择,而是从全体变量中随机选择若干个变量参与选择。
5.根据权利要求1所述的变量重要性分析方法,其特征在于,所述步骤S6包括:
对于离散质量问题,利用Gini指数法结合分层随机森林模型对多工序加工过程进行变量重要性分析,产生变量重要性评分和排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010030606.5/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理