[发明专利]导线覆冰有无决策树模型的建立方法及对覆冰有无判定和预测覆冰持续时间的方法有效

申请号：	202011392538.3	申请日：	2020-12-01
公开（公告）号：	CN112597629B	公开（公告）日：	2022-11-01
发明（设计）人：	王熹;肖锐;曹小群;乐海洪;张庭;程铁洪;孙学勇;黄磊;高革命;刘志腾;赵超	申请（专利权）人：	中国电建集团江西省电力设计院有限公司
主分类号：	G06F30/20	分类号：	G06F30/20;G06F113/16
代理公司：	江西省专利事务所 36100	代理人：	殷勇刚
地址：	330096 江西省南昌***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	导线有无决策树模型建立方法判定预测持续时间
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种导线覆冰有无决策树模型的建立方法，包括以下步骤，

(1)数据预处理：获取区域内气象站及覆冰观测站记载的导线覆冰期间相应每日的气象参数以及相应的导线覆冰测量结果设为总样本Y，包括离散变量Z_i(i＝1,2,3,4,5,6)和连续变量X_j(j＝1,2,3,4,5,6,7)，其中，离散变量Z_i包括霜、雾、露、雨、雪、冰粒六种属性，所述变量依次定义为Z₁(1、0),Z₂(1、0),Z₃(1、0),Z₄(1、0),Z₅(1、0),Z₆(1、0)，变量中(1、0)表示是、否出现，出现用1表示，没出现用0表示；连续变量X_j包括观测场海拔、日平均气温、日最高气温、日最低气温、日平均相对湿度、日平均风速、日最大风速七种属性，所述变量依次定义为X₁、X₂、X₃、X₄、X₅、X₆、X₇；

确定易覆冰期间的总样本Y的组数和每个属性对应的基尼系数最小阈值；

(2)获得导线覆冰有无总样本的基本参数：其中，包括总样本Y的组数N_总，出现导线覆冰的组数N_有，没有导线覆冰的组数N_无；

(3)获取每个变量的基尼系数：

(3.1)对于离散变量，获得离散变量Z_i的基尼系数，在总样本Y中，样本组总数为N_总，即对于离散变量Z_i的样本组L_s＝{Z_s(1)(1、0),Z_s(2)(1、0),...Z_s(i)(1、0)...Z_s(6)(1、0)}，L_s为总样本Y中的第s组样本组，0≤s≤N_总，直接按照样本的属性值进行分类，具体为样本组中出现离散变量Z_i的用1表示，没出现离散变量Z_i的用0表示；

在总样本Y中，出现离散变量Z_i(1)共有n_i总组，其中有导线覆冰的组数为n_i组，没有出现导线覆冰的组数为n_i总-n_i组，因此出现离散变量Z_i的基尼系数为：

在总样本Y中，没有出现离散变量Z_i(0)的共有N_总-n_i总组，其中出现导线覆冰的组数为n′_i组，没有出现导线覆冰的组数为N_总-n_i总-n′_i组，因此没有出现离散变量Z_i(0)的基尼系数为：

综合以上式子，离散变量Z_i的加权平均基尼系数为：

(3.2)按步骤(3.1)所述方法，依次计算离散变量Z_i的样本组

L_s＝{Z_s(1)(1、0),Z_s(2)(1、0),...Z_s(i)(1、0)...Z_s(6)(1、0)}中，L_s为总样本Y中的第s组样本组，0≤s≤N_总，离散变量Z_i属性分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

对于离散变量Z₁霜，

对于离散变量Z₂雾，

对于离散变量Z₃露，

对于离散变量Z₄雨，

对于离散变量Z₅雪，

对于离散变量Z₆冰粒，

(3.3)对于连续变量X_j，获得连续变量X_j的基尼系数，在总样本Y中，总样本Y的组数为N_总，即对于连续变量X_j的样本组L_s＝{X_s(1),X_s(2),...X_s(j)...X_s(7)}，L_s为总样本Y中的第s组样本组，0≤s≤N_总，直接按照样本的属性值进行分类，将总样本Y的总数N_总个连续变量X_j的样本值从小到大进行排列为总样本Y中的第s组样本组的连续变量X_j的样本值，0≤s≤N_总；

若有q个数据相同，则有N_总-q+1个不同的样本值，将连续变量X_j的N_总-q+1个不同的样本值x'_p(j)从小到大进行排列为x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1，将数据分成N_总-q个区间，取相邻两样本值的平均数做候选分界点，一个区间对应一个候选分界点，共有N_总-q个候选分界点

(3.4)对每个候选分界点分别计算基尼系数；

(3.4.1)在N_总-q+1个不同的样本值中，x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1，其中，在总样本Y，小于等于第p个候选分界点M_p的数据有a组，出现导线覆冰的有a₁组，没出现导线覆冰的有a-a₁组；

则小于等于第p个候选分界点M_p的连续变量X_j的基尼系数为：

(3.4.2)在N_总-q+1个不同的样本值中，x'_p(j)为第p个不同的样本值，0≤p≤N_总-q+1，其中，在总样本Y中，大于第p个候选分界点M_p的数据有N_总-a组，出现导线覆冰的有b组，则不存在导线覆冰的有N_总-a-b组数据；

则大于第p个候选分界点M_p的连续变量X_j的基尼系数为：

(3.4.3)则第p个候选分界点M_p的连续变量X_j的加权平均基尼系数为：

(3.4.4)按步骤(3.4.1)-(3.4.3)计算N_总-q个候选分界点的加权平均基尼系数，获得N_总-q个加权平均基尼系数，之后比较每个候选分界点的加权平均基尼系数，从N_总-q个加权平均基尼系数中选取加权平均基尼系数最小的候选分界点作为该连续变量属性的最终候选分界点；

(3.4.5)以此类推，得出所有连续变量属性的最终候选分界点和对应的加权平均基尼系数；

(4)将步骤(3.2)获得的六个离散变量Z_i的加权平均基尼系数和步骤(3.4.5)获得的七个连续变量X_j的最终候选分界点对应的加权平均基尼系数进行比较，选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为最优分割属性R₀，获得初始加权平均基尼系数Gini(R₀)_min(0)；R₀为初始最优分割属性，为离散变量Z_i或连续变量X_j中的一种属性，min(0)为初始最小值，开始树的第一层分叉；

(5)第一层分叉：在最优分割属性中，分别计算每个分叉属性中对应的总样本Y中所有变量的基尼系数，

(5.1)若初始最优分割属性R₀为离散变量Z_i中的一种属性，将总样本Y根据Z_i(0，1)的属性进行分组，

(5.1.1)在总样本Y中，出现离散变量Z_i(1)的样本组Y₁有d_i总组，其中，出现覆冰的有d_i组，未出现覆冰的有d_i总-d_i组；

(5.1.1.1)按步骤(3.1)-(3.2)计算样本组Y₁中，离散变量Z_i分别为霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

(5.1.1.2)按步骤(3.3)-(3.4)计算样本组Y₁中，连续变量X_j各属性的最终候选分界点和对应的加权平均基尼系数；

(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为出现离散变量Z_i(1)属性下的第一层最优分割属性获得出现离散变量Z_i(1)属性下的第一层最小加权平均基尼系数开始树的第二层分叉；

其中，的上标1表示出现离散变量Z_i(1)，(i＝1,2,3,4,5,6)属性，下标1表示第一层最优分割，min(1)为第一层最小值；

(5.1.2)未出现离散变量Z_i(0)的样本组Y-Y₁有N_总-d_i总组，其中，出现覆冰的有d'_i组，没有出现覆冰的有N_总-d_i总-d'_i组，

按步骤(5.1.1.1)-(5.1.1.3)，获得未出现离散变量Z_i(0)属性下的最小加权平均基尼系数为未出现离散变量Z_i(0)属性下的第一层最优分割属性，开始树的第二层分叉；

其中，的上标0表示未出现离散变量Z_i(0)属性，下标1表示第一层最优分割，min(1)为第一层最小值；

(5.2)若初始最优分割属性R₀为连续变量X_j中的一种属性，初始加权平均基尼系数Gini(R₀)_min(0)对应的初始分界点为M_min(0)；

将总样本Y根据小于等于或大于初始分界点M_min(0)进行分组；

(5.2.1)在总样本Y中，连续变量X_j小于等于M_min(0)的样本组Y'₁数据有c_j总组，出现导线覆冰的有c_j组，没出现导线覆冰的有c_j总-c_j组；

(5.2.1.1)按步骤(3.1)-(3.2)计算样本组Y₁'中，离散变量Z_i霜、雾、露、雨、雪、冰粒六种属性的加权平均基尼系数，即Z₁、Z₂、Z₃、Z₄、Z₅、Z₆的加权平均基尼系数Gini(Y，Z₁)、Gini(Y，Z₂)、Gini(Y，Z₃)、Gini(Y，Z₄)、Gini(Y，Z₅)、Gini(Y，Z₆)；

(5.2.1.2)按步骤(3.3)-(3.4)计算样本组Y₁'中，连续变量X_j各属性的最终候选分界点和对应的加权平均基尼系数；

(5.1.1.3)按步骤(4)选取加权平均基尼系数最小的变量作为最优分割属性，即选取六个离散变量Z_i的加权平均基尼系数和七个连续变量X_j的最终候选分界点对应的加权平均基尼系数中的最小加权平均基尼系数作为连续变量X_j小于等于初始分界点M_min(0)属性下的第一层最优分割属性获得连续变量X_j小于等于初始分界点M_min(0)属性下的第一层最小加权平均基尼系数开始树的第二层分叉；

其中，的上标表示小于等于初始分界点M_min(0)，下标1表示第一层最优分割，min(1)为第一层最小值；

(5.2.2)在总样本Y中，连续变量X_j大于M_min(0)的样本组Y-Y₁'数据有N_总-c_j总组，出现导线覆冰的有c'_j组，不存在导线覆冰的有N_总-c'_j总-c'_j组数据；

按步骤(5.2.1.1)-(5.2.1.3)，获得连续变量X_j大于初始分界点M_min(0)属性下的第一层最小加权平均基尼系数开始树的第二层分叉；

其中，为连续变量X_j大于初始分界点M_min(0)属性下的第一层最优分割属性，上标M_min(0)表示大于初始分界点M_min(0)，下标1表示第一层最优分割，min(1)为第一层最小值；

(6)重复步骤(3)-(5)，继续进行深一层的分叉，直至达到决策树终止条件，就完成了决策树模型的生成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电建集团江西省电力设计院有限公司，未经中国电建集团江西省电力设计院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011392538.3/1.html，转载请声明来源钻瓜专利网。