[发明专利]导线覆冰有无决策树模型的建立方法及对覆冰有无判定和预测覆冰持续时间的方法有效
| 申请号: | 202011392538.3 | 申请日: | 2020-12-01 |
| 公开(公告)号: | CN112597629B | 公开(公告)日: | 2022-11-01 |
| 发明(设计)人: | 王熹;肖锐;曹小群;乐海洪;张庭;程铁洪;孙学勇;黄磊;高革命;刘志腾;赵超 | 申请(专利权)人: | 中国电建集团江西省电力设计院有限公司 |
| 主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F113/16 |
| 代理公司: | 江西省专利事务所 36100 | 代理人: | 殷勇刚 |
| 地址: | 330096 江西省南昌*** | 国省代码: | 江西;36 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 导线 有无 决策树 模型 建立 方法 判定 预测 持续时间 | ||
1.一种导线覆冰有无决策树模型的建立方法,包括以下步骤,
(1)数据预处理:获取区域内气象站及覆冰观测站记载的导线覆冰期间相应每日的气象参数以及相应的导线覆冰测量结果设为总样本Y,包括离散变量Zi(i=1,2,3,4,5,6)和连续变量Xj(j=1,2,3,4,5,6,7),其中,离散变量Zi包括霜、雾、露、雨、雪、冰粒六种属性,所述变量依次定义为Z1(1、0),Z2(1、0),Z3(1、0),Z4(1、0),Z5(1、0),Z6(1、0),变量中(1、0)表示是、否出现,出现用1表示,没出现用0表示;连续变量Xj包括观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速七种属性,所述变量依次定义为X1、X2、X3、X4、X5、X6、X7;
确定易覆冰期间的总样本Y的组数和每个属性对应的基尼系数最小阈值;
(2)获得导线覆冰有无总样本的基本参数:其中,包括总样本Y的组数N总,出现导线覆冰的组数N有,没有导线覆冰的组数N无;
(3)获取每个变量的基尼系数:
(3.1)对于离散变量,获得离散变量Zi的基尼系数,在总样本Y中,样本组总数为N总,即对于离散变量Zi的样本组Ls={Zs(1)(1、0),Zs(2)(1、0),...Zs(i)(1、0)...Zs(6)(1、0)},Ls为总样本Y中的第s组样本组,0≤s≤N总,直接按照样本的属性值进行分类,具体为样本组中出现离散变量Zi的用1表示,没出现离散变量Zi的用0表示;
在总样本Y中,出现离散变量Zi(1)共有ni总组,其中有导线覆冰的组数为ni组,没有出现导线覆冰的组数为ni总-ni组,因此出现离散变量Zi的基尼系数为:
在总样本Y中,没有出现离散变量Zi(0)的共有N总-ni总组,其中出现导线覆冰的组数为n′i组,没有出现导线覆冰的组数为N总-ni总-n′i组,因此没有出现离散变量Zi(0)的基尼系数为:
综合以上式子,离散变量Zi的加权平均基尼系数为:
(3.2)按步骤(3.1)所述方法,依次计算离散变量Zi的样本组
Ls={Zs(1)(1、0),Zs(2)(1、0),...Zs(i)(1、0)...Zs(6)(1、0)}中,Ls为总样本Y中的第s组样本组,0≤s≤N总,离散变量Zi属性分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
对于离散变量Z1霜,
对于离散变量Z2雾,
对于离散变量Z3露,
对于离散变量Z4雨,
对于离散变量Z5雪,
对于离散变量Z6冰粒,
(3.3)对于连续变量Xj,获得连续变量Xj的基尼系数,在总样本Y中,总样本Y的组数为N总,即对于连续变量Xj的样本组Ls={Xs(1),Xs(2),...Xs(j)...Xs(7)},Ls为总样本Y中的第s组样本组,0≤s≤N总,直接按照样本的属性值进行分类,将总样本Y的总数N总个连续变量Xj的样本值从小到大进行排列为总样本Y中的第s组样本组的连续变量Xj的样本值,0≤s≤N总;
若有q个数据相同,则有N总-q+1个不同的样本值,将连续变量Xj的N总-q+1个不同的样本值x'p(j)从小到大进行排列为x'p(j)为第p个不同的样本值,0≤p≤N总-q+1,将数据分成N总-q个区间,取相邻两样本值的平均数做候选分界点,一个区间对应一个候选分界点,共有N总-q个候选分界点
(3.4)对每个候选分界点分别计算基尼系数;
(3.4.1)在N总-q+1个不同的样本值中,x'p(j)为第p个不同的样本值,0≤p≤N总-q+1,其中,在总样本Y,小于等于第p个候选分界点Mp的数据有a组,出现导线覆冰的有a1组,没出现导线覆冰的有a-a1组;
则小于等于第p个候选分界点Mp的连续变量Xj的基尼系数为:
(3.4.2)在N总-q+1个不同的样本值中,x'p(j)为第p个不同的样本值,0≤p≤N总-q+1,其中,在总样本Y中,大于第p个候选分界点Mp的数据有N总-a组,出现导线覆冰的有b组,则不存在导线覆冰的有N总-a-b组数据;
则大于第p个候选分界点Mp的连续变量Xj的基尼系数为:
(3.4.3)则第p个候选分界点Mp的连续变量Xj的加权平均基尼系数为:
(3.4.4)按步骤(3.4.1)-(3.4.3)计算N总-q个候选分界点的加权平均基尼系数,获得N总-q个加权平均基尼系数,之后比较每个候选分界点的加权平均基尼系数,从N总-q个加权平均基尼系数中选取加权平均基尼系数最小的候选分界点作为该连续变量属性的最终候选分界点;
(3.4.5)以此类推,得出所有连续变量属性的最终候选分界点和对应的加权平均基尼系数;
(4)将步骤(3.2)获得的六个离散变量Zi的加权平均基尼系数和步骤(3.4.5)获得的七个连续变量Xj的最终候选分界点对应的加权平均基尼系数进行比较,选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为最优分割属性R0,获得初始加权平均基尼系数Gini(R0)min(0);R0为初始最优分割属性,为离散变量Zi或连续变量Xj中的一种属性,min(0)为初始最小值,开始树的第一层分叉;
(5)第一层分叉:在最优分割属性中,分别计算每个分叉属性中对应的总样本Y中所有变量的基尼系数,
(5.1)若初始最优分割属性R0为离散变量Zi中的一种属性,将总样本Y根据Zi(0,1)的属性进行分组,
(5.1.1)在总样本Y中,出现离散变量Zi(1)的样本组Y1有di总组,其中,出现覆冰的有di组,未出现覆冰的有di总-di组;
(5.1.1.1)按步骤(3.1)-(3.2)计算样本组Y1中,离散变量Zi分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
(5.1.1.2)按步骤(3.3)-(3.4)计算样本组Y1中,连续变量Xj各属性的最终候选分界点和对应的加权平均基尼系数;
(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为出现离散变量Zi(1)属性下的第一层最优分割属性获得出现离散变量Zi(1)属性下的第一层最小加权平均基尼系数开始树的第二层分叉;
其中,的上标1表示出现离散变量Zi(1),(i=1,2,3,4,5,6)属性,下标1表示第一层最优分割,min(1)为第一层最小值;
(5.1.2)未出现离散变量Zi(0)的样本组Y-Y1有N总-di总组,其中,出现覆冰的有d'i组,没有出现覆冰的有N总-di总-d'i组,
按步骤(5.1.1.1)-(5.1.1.3),获得未出现离散变量Zi(0)属性下的最小加权平均基尼系数为未出现离散变量Zi(0)属性下的第一层最优分割属性,开始树的第二层分叉;
其中,的上标0表示未出现离散变量Zi(0)属性,下标1表示第一层最优分割,min(1)为第一层最小值;
(5.2)若初始最优分割属性R0为连续变量Xj中的一种属性,初始加权平均基尼系数Gini(R0)min(0)对应的初始分界点为Mmin(0);
将总样本Y根据小于等于或大于初始分界点Mmin(0)进行分组;
(5.2.1)在总样本Y中,连续变量Xj小于等于Mmin(0)的样本组Y'1数据有cj总组,出现导线覆冰的有cj组,没出现导线覆冰的有cj总-cj组;
(5.2.1.1)按步骤(3.1)-(3.2)计算样本组Y1'中,离散变量Zi霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数,即Z1、Z2、Z3、Z4、Z5、Z6的加权平均基尼系数Gini(Y,Z1)、Gini(Y,Z2)、Gini(Y,Z3)、Gini(Y,Z4)、Gini(Y,Z5)、Gini(Y,Z6);
(5.2.1.2)按步骤(3.3)-(3.4)计算样本组Y1'中,连续变量Xj各属性的最终候选分界点和对应的加权平均基尼系数;
(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性,即选取六个离散变量Zi的加权平均基尼系数和七个连续变量Xj的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为连续变量Xj小于等于初始分界点Mmin(0)属性下的第一层最优分割属性获得连续变量Xj小于等于初始分界点Mmin(0)属性下的第一层最小加权平均基尼系数开始树的第二层分叉;
其中,的上标表示小于等于初始分界点Mmin(0),下标1表示第一层最优分割,min(1)为第一层最小值;
(5.2.2)在总样本Y中,连续变量Xj大于Mmin(0)的样本组Y-Y1'数据有N总-cj总组,出现导线覆冰的有c'j组,不存在导线覆冰的有N总-c'j总-c'j组数据;
按步骤(5.2.1.1)-(5.2.1.3),获得连续变量Xj大于初始分界点Mmin(0)属性下的第一层最小加权平均基尼系数开始树的第二层分叉;
其中,为连续变量Xj大于初始分界点Mmin(0)属性下的第一层最优分割属性,上标Mmin(0)表示大于初始分界点Mmin(0),下标1表示第一层最优分割,min(1)为第一层最小值;
(6)重复步骤(3)-(5),继续进行深一层的分叉,直至达到决策树终止条件,就完成了决策树模型的生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电建集团江西省电力设计院有限公司,未经中国电建集团江西省电力设计院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011392538.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐热阻燃pvc电缆料粒的生产设备及生产方法
- 下一篇:发动机缸盖加工机构





