[发明专利]多标准误分类代价敏感决策树构建方法在审

专利信息
申请号: 201610406793.6 申请日: 2016-06-07
公开(公告)号: CN106611185A 公开(公告)日: 2017-05-03
发明(设计)人: 金平艳;胡成华 申请(专利权)人: 四川用联信息技术有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 610054 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标准 分类 代价 敏感 决策树 构建 方法
【权利要求书】:

1.多标准误分类代价敏感决策树构建方法,该方法涉及人工智能、数据挖掘和

机器学习领域,其特征是,包括如下步骤:

步骤1:设训练集中有X个样本,属性个数为n,即,同时分裂属性对应了m个类L,其中,,,设误分类代价矩阵为C,C由用户指定;

类别标识个数为m,则该数据的代价矩阵方阵是:

其中表示第类数据分为第i类的代价,如果为正确分类,则,否则为错误分类,其值由相关用户给定,这里;

步骤2:创建根节点G;

步骤3:如果训练数据集为空,则返回节点G并标记失败;

步骤4:如果训练数据集中所有记录都属于同一类别,则以该类型标记节点G;

步骤5:如果候选属性为空,则返回G为叶子节点,标记为训练数据集中最普通的类;

步骤6:根据代价敏感的候选属性选择因子ASF候选属性中选择splitS;

候选属性选择因子ASF:

averagegain(S)为选择属性S的平均信息增益,reduce_mc(S)为选择属性S作为分裂属性时的误分类代价减少率;

当选择属性splitS满足目标函数ASF(S)最小时,则找到标记节点G,如果一些属性具有相同的ASF值,为了打破平局的标准,再按照更大的reduce_mc(S)值来优先选择候选属性,这样构建的决策树优先遵从误分类代价最低的原则;

步骤7:标记节点G为属性splitS;

步骤8:由根据基尼指数值延伸出满足条件为分支,

分支基尼指数

设训练数据集X,其类有m个,那么其gini指标为:

其中为分裂属性属于类的相对频率,当,即在此结点处所有样例都属于同一类,表示能得到最大有用信息;当此结点所有样例对于类别字段来讲均匀分布时,最大,表示能得到最小的有用信息;

8.1这里假设为训练数据集中的样本集合,满足以下两条件之一,则终止建树;

(1)如果为空,加上一个叶子节点,标记为训练数据集中最普通的类;

(2)在一节点中所有例子属于相同类;

步骤9:非8.1中情况,则递归调用步骤6至步骤8;

步骤10:为避免决策树中存在过渡拟合问题,利用后剪支技术对决策树进行剪支操作。

2.根据权利要求1所述的多标准误分类代价敏感决策树构建方法,其特征是,所述步骤6中计算候选属性选择因子ASF,需要求出候选属性S的平均信息增益averageGain(S)、误分类代价减损率reduce_mc(S),其具体求解过程如下:

步骤6.1,X的基尼指数gini(X)

其中m为训练集X的类个数,为训练集X对应类的概率;

步骤6.2. 候选属性S的信息增益Gain(S)

根据基尼指数gini(X)定义,属性S的信息增益为:

其中gini(S,X)表示当属性S作为分裂属性分裂后在所有类中剩余的基尼指数,即:

这里属性S有j个属性值,则第j个属性值样本数为,即 ;

为属性值对应的类概率;

即候选属性S的信息增益:

步骤6.3,候选属性S的平均信息增益averageGain(S)

根据Gain(S),可得平均候选属性S的信息增益averageGain(S)

其中j为属性S的属性值个数,即分支节点个数;

averageGain(S)作用:有更好的分类精度;

步骤6.4 误分类代价减损率reduce_mc(S)

mc是在候选属性S分裂前的误分类代价,这里S有j个分支,则表示候选属性S分裂之后总的误分类代价;

reduce_mc(S)作用:把误分类代价不同单位机制量化为同一单位,降低了误分类代价单位异质性对分裂属性选择的影响;

步骤6.5分裂属性选择因子

作用:对属性信息增益进行优化处理,避免因属性信息增益过小而忽略了属性信息的风险;

ASF(S)能够很好的平衡由于误分类代价以及平均信息增益之间存在的异构难题,把属性分类能力与误分类代价共同融合进行候选属性选择,可以更好提高分类精度和降低误分类代价。

3.根据权利要求1所述的多标准误分类代价敏感决策树构建方法,其特征是,

所述步骤10中设定后剪支条件,其具体设定过程如下:

其剪支条件为:

为用户指定的值,剪枝的条件首先要满足尽可能使代价减损达到用户指定条件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610406793.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top