[发明专利]一种基于分层随机森林的变量重要性分析方法有效

专利信息
申请号: 202010030606.5 申请日: 2020-01-13
公开(公告)号: CN111260201B 公开(公告)日: 2023-04-28
发明(设计)人: 何飞;王立东;胡宇星;张志研 申请(专利权)人: 北京科技大学
主分类号: G06Q10/0639 分类号: G06Q10/0639;G06F18/214;G06N20/00
代理公司: 北京市广友专利事务所有限责任公司 11237 代理人: 张仲波;邓琳
地址: 100083*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分层 随机 森林 变量 重要性 分析 方法
【权利要求书】:

1.一种基于分层随机森林的变量重要性分析方法,其特征在于,包括以下步骤:

S1、获取待处理数据集,所述待处理数据集中的每个样本具有多个变量;

S2、对所述待处理数据集进行预处理,剔除异常样本和空值;

S3、对预处理后的数据集,将其中的变量按照加工工序进行分组;

所述步骤S3包括:

将上游的化学成分变量作为第一工序的变量,将下游的工艺变量作为第二工序的变量,进行分组;

S4、抽样生成多个训练集,为每一个训练集建立分层决策树;

所述步骤S4包括:

利用Bootstrap抽样方法,采用多次有放回随机抽样技术从原始样本中抽取预定数量的样本,生成多个训练集;

对于多个训练集,首先对第一组变量利用最小化准则进行划分,得到第一层及其叶节点,然后以第一层的叶节点作为下一层的根节点,对下一组变量进行划分,最终建立分层决策树;

S5、将多棵分层决策树融合形成分层随机森林模型;

S6、利用Morris筛选法或Gini指数法结合分层随机森林模型进行变量重要性分析,生成变量重要性排序;

所述步骤S6包括:

对于连续质量问题,利用Morris筛选法结合分层随机森林模型对多工序加工过程进行变量重要性分析,利用基效应的绝对值均值来衡量变量的重要性;

将同一个变量在两次结果中的序号差作为距离,将所有变量的距离总和称为总距离,以总距离作为衡量波动性的指标,找到最合适的森林规模;

具体地,对于连续质量问题,利用Morris筛选法来进行变量重要性分析的具体计算步骤如下:

1)定义空间:

Ω:X=X1,X2,…,Xk,Xi={0,1/p-1,2/p-1,…,1};

在Ω中随机选择某样本作为出发点,运行一次模型,计算其输出;

2)改变该样本中变量i的取值,变化量Δ为1/(p-1)的倍数,p等于样本容量N或N+1,p为偶数,变化量Δ=p/[2(p-1)],确定Δ的正负,并将新样本放回Ω;再运行一次模型,计算其输出;

3)由步骤1)、2)的输出,计算基效应di(x);

4)继续改变该样本点其他变量,计算输出;直至所有输入变量均得到变化,一共运行k+1次,k为变量个数;

5)重复步骤1)-4),每次均从不同的起始点出发,共重复r次;则模型共运行了r(k+1)次;

6)按上述方法计算μ*,作为衡量变量重要性的指标;其中,μ*为各变量基效应分布的绝对值均值;

由于结果存在波动性,所以同一个变量在两次结果中的序号并不一定相同,将Rank1和Rank2中同一个变量的序号差作为距离,将所有变量的距离总和称为总距离D;即,采用Morris方法对分层随机森林模型进行分析,计算各变量重要性,将结果进行归一化并从大到小进行排序,重复操作一次,得到两个结果;变量Xi在两次结果中的序号为和规定距离总距离D=∑di,将D作为衡量波动性的指标。

2.根据权利要求1所述的变量重要性分析方法,其特征在于,在所述步骤S1中,获取待处理数据集的方法为采用原始数据集或在原始数据集上随机抽取。

3.根据权利要求1所述的变量重要性分析方法,其特征在于,所述步骤S2还包括:

使用SMOTE过采样方法消除正常样本和异常样本的不平衡问题。

4.根据权利要求1所述的变量重要性分析方法,其特征在于,在对分层决策树的每个节点进行最佳变量选择时,并非全体变量参与选择,而是从全体变量中随机选择若干个变量参与选择。

5.根据权利要求1所述的变量重要性分析方法,其特征在于,所述步骤S6包括:

对于离散质量问题,利用Gini指数法结合分层随机森林模型对多工序加工过程进行变量重要性分析,产生变量重要性评分和排序。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010030606.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top