[发明专利]基于平均测试代价的一维尺度决策树构造算法在审
申请号: | 201610284638.1 | 申请日: | 2016-04-29 |
公开(公告)号: | CN106611179A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 金平艳;胡成华 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 平均 测试 代价 尺度 决策树 构造 算法 | ||
所属领域
本发明涉及智能服务、机器学习领域。
背景技术
决策树决策方法是机器学习领域中经典算法,得到了广泛应用。早期分类中,一般认为准确率是对分类效果很重要的衡量标准之一。以ID3算法为代表,它主要是在分裂属性选择方法和优化剪支策略两方面的研究。在实际的许多分类问题中,算法ID3存在各种条件的限制。其中最主要一点是缺乏背景知识,从而限制学习过程。如一位脑肿瘤专家在判定一个患头疼的病人时,第一次并不进行最有效果的昂贵扫描,此时专家有经济标准。在这种简单常见的病症下,一开始是简单问题测试或是一些其它更为经济的测试。背景学习方法在进行数据分类的过程中应遵循测试成本最小化归纳规则,以适应更多实际数据分类问题,基于这种需求,本发明提出了基于平均测试代价的一维尺度决策树构造方法。
发明内容
本发明所要解决的技术问题是决策过程中所产生经济成本的影响,提出了一种基于测试代价的一维决策树构造算法。
本发明所采用的技术方案是:通过原训练示例利用EP准则得到新背景训练集ISA,在每项测试成本、经济因子和完整阔值已知的情况下,综合考虑ΔI和ICF的值依次选择属性结点,再利用分裂抽象属性的完整因子c与给定ct作比较,来得到相应的分支,在决策树生成过程中,如遇到在一个子集或分支结点中的所有样例都属于相同类别或是在一个子集或分支结点中没有待分裂的候选抽象属性,即基于平均测试代价的一维尺度决策树模型生成。
本发明的有益效果是:采用本决策树构造算法实现了在数据分类过程中,所花费的平均测试成本低。
附图说明
图1表示基于平均测试代价的一维尺度决策树构造示意图
图2表示ISA层次决策树结构的生成示意图
图3表示属性A进行结点分裂示意图
具体实施方式
以下结合附图1到3,对本发明进行详细说明。
本算法所涉及的参数定义及说明如下。
一.ISA新背景训练样本集
设原训练样本集X中有n种类别标识L1,L2,…Ln,根据类(叶子结点)的分类对选择属性进行新的归纳得到新的训练样本集,即为ISA;新的属性这里称为抽象属性抽象P、N。
二.测试代价
ISA新背景训练样本集中进行每一项属性测试需要的费用,记为cos t,cos ti为第i属性测试成本,测试代价由相关专家给出。
三.经济因子w和完整阔值ct
经济因子w为用来校准成本花费的一个变量,其范围为w∈[0,1],当w=1为最大成本花费;完整阔值ct由相关领域专家给出,其取值范围为ct∈[0,1]。
四.信噪比函数z()
根据信息论,信噪比这一函数功能在数据分析方面得到了广泛的应用,有下式:
有UI+NI=TI(总信息)
得出z()=[UI/NI]=[TI/NI]-1
五.信息增益函数ΔT
根据上面的信噪比z()函数和ID3决策树算法原理,有:
ΔT=R(TI)-R(NI)=[2R(TI)/2R(NI)]
由于TI=2R(TI),NI=2R(NI)
所以
2ΔT=[TI/NI],2ΔT=[UI/NI+1]=z()+1
所以上式信噪比函数又可写为z()=2ΔT-1
六.分裂抽象属性选择因子c
假如Y为新背景训练样本集(ISA),A为新训练样本集的选择属性之一,新训练样本抽象属性的叶子结点i的种类个数为m,我们把此叶子结点称为观测值,其中i∈[1,2…,m]。ISA抽象属性值j的个数为n,即原训练样本的叶子结点数,其中j∈[1,2…,n]。
其中,当抽象属性第j个叶子结点中包含第i类观测值时,h(i,j)=1;相反如果抽象属性第j个叶子结点中不包含第i类观测值,即h(i,j)=0。
当时,我们选择这个抽象属性进行分裂。
七、本发明的具体步骤如下:
步骤1:定义L为类的种类,其个数为n,Li表示第i类,上述i∈(1,2,3…n);根据EP结点类的分类准则得到新背景训练样本集ISA。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610284638.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:晶体中心位置图生成方法
- 下一篇:基于测试代价的决策树分类器构造方法