[发明专利]基尼指数与误分类代价敏感决策树构建方法在审
| 申请号: | 201610380003.1 | 申请日: | 2016-05-30 |
| 公开(公告)号: | CN106611183A | 公开(公告)日: | 2017-05-03 |
| 发明(设计)人: | 金平艳;胡成华 | 申请(专利权)人: | 四川用联信息技术有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 指数 分类 代价 敏感 决策树 构建 方法 | ||
1.基尼指数与误分类代价敏感决策树构建方法,该方法涉及人工智能、机器学习技术领域,其特征是:该方法联合误分类代价和属性信息—作为候选属性选择标准,选择更大值作为节点G,根据分裂因子指标来选择满足条件的分支,循环执行上述操作,就可以遍历整个训练样本集,得到既能反映属性信息的纯度又使误分类代价达到最小的决策树模型,本方法的具体实施步骤如下:
步骤1:设训练集中有个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,,相关领域用户设定好误分类代价矩阵C、测试成本 、经济因子w;
步骤1.1:设立误分类代价矩阵
类别标识个数为m,则该数据的代价矩阵方阵是:
其中表示第j类数据分为第i类的代价,如果为正确分类,则,否则为错误分类,其值由相关领域用户给定,这里;
步骤2:创建根节点G;
步骤3:如果训练数据集为空,则返回结点G并标记失败;
步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记结
G;
步骤5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类;
步骤6:根据本发明代价敏感的分裂属性因子ASF候选属性中选择,
候选属性因子ASF:
为选择属性S的信息量, 为把属性S误分为i类的平均总误分类代价,当选择属性满足目标函数最大时,则找到标记节点;
步骤7:标记节点为属性;
步骤8:根据基尼指数值延伸出满足条件为分支;
步骤8.1::假设为训练数据集中的样本集合,如果为空,加上一个叶子节点,标记为训练数据集中最普通的类;
步骤9:非步骤8.1中情况,则递归调用步骤6至步骤8;
步骤10:更新训练数据集,保存新的示例数据。
2.根据权利要求1所述的基尼指数与误分类代价敏感决策树构建方法,其特征是:所述步骤6,选择属性的基尼指数计算如下:
其中k为的属性值个数, 为子结点的记录数,X为处的记录数,其中分裂属性的基尼指数值具体计算如下(此计算也适用于步骤8关于基尼指数gini()的计算):
设训练数据集X,其类有m个,那么其gini指标为 :
其中 为分裂属性 属于类的相对频率,当,即在此结点处所有样例都属于同一类,表示能得到最大有用信息;当此结点所有样例对于类别字段来讲均匀分布时,最大,表示能得到最小的有用信息。
3.根据权利要求1所述的基尼指数与误分类代价敏感决策树构建方法,其特征是:所述步骤6关于目标函数ASF的计算,其中所涉及到的有误分类代价指标函数、属性S平均总误分类代价,其具体的求解过程如下:
步骤6.1:求解误分类代价指标函数
根据步骤1的误分类代价矩阵,对于任一属性值,如果将其分为第i类,那么可能此时属性值的误分类为i的代价是:
其中为将分为第i类的预测总代价, 为在属性值中第j类的概率, 为把j类错分为第i类的代价花费;
步骤6.2:求解属性S的平均总误分类代价
其中k为的属性值个数;
步骤6.3:求解候选属性因子ASF
根据前面几个步骤,可得出:
候选属性因子 :
选择属性的基尼指数处理,经过式子 可以预防因属性值信息量小而忽略的风险。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610380003.1/1.html,转载请声明来源钻瓜专利网。





