[发明专利]一种基于ID3算法的决策树生成方法在审
申请号: | 201811193658.3 | 申请日: | 2018-10-15 |
公开(公告)号: | CN109543711A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 王宝亮;马明杰 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 决策树生成 条件属性 反复迭代 数据集中 分裂点 决策树 离散化 剪枝 分裂 改进 | ||
本发明涉及一种基于ID3算法的决策树生成方法,对ID3算法进行改进,方法如下:利用K‑means++算法将数据集中连续的属性取值离散化,然后计算各个条件属性的重要性SGA(a,P,A),选择重要性大的属性作为分裂点,反复迭代,直到所有条件属性均被用作分裂节点,最终剪枝成决策树。
技术领域
本发明属于机器学习和数据挖掘技术领域。
背景技术
数据挖掘就是对观测到的数据集(经常是庞大的)进行分析,目的是发现
未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。该定义中所说的“观测到的数据”,是与“实验室得到的”数据相对而言的。一般来说,数据挖掘所处理的数据是为了其他某个目的已经收集好的,而不是为了数据分析本身去收集的。这意味着数据挖掘的目标根本不在数据采集策略。这是数据挖掘区别于大多数统计任务的一个特征,在统计中经常是利用高效率的策略来采集数据以回答特定的问题。数据挖掘就是寻找数据集中的关系,也就是寻找精确、方便并且有价值地总结了数据的某一特征的表示。
随着机器学习的普遍深入,数据挖掘已经变得非常重要,而作为数据挖掘中的分类算法之一的决策树也应用的越来越广泛。决策树分类(Decision Tree Classification)是数据挖掘领域中的重要分支之一。决策树分类学习是以实例数据为基础,通过一组无次序、无规则的实例推理出决策树表示形式的分类规则。如果给定的训练数据集中的数据能准确地反映分析对象的本质,则对应的决策树就能够准确地对该问题进行分类。决策树是判断给定样本与某种属性相关联的决策过程的一种表示方法。决策树的每个内部节点是对属性的一个测试,每个分支代表一个测试输出,每个叶节点标识某个类别或类别的分布。当一个待分类的样本沿根节点,经内部节点的测试达到某个叶节点时,则判定该样本属于此叶节点所标识的类别。创建决策树的过程,即树的生长过程是不断地把训练数据集进行划分的过程,每次划分对应一个属性,也对应着一个内部节点,划分所选的属性应使划分后的分组“差异”最大。
决策树的生成算法主要由3类,ID3,C4.5,CART。这三类算法各有优缺点,ID3算法就是对每个节点选择信息增益Gain(S,A)最大的属性作为测试属性。该算法的优点是,理论清晰,方法简单,学习能力较强。但是,ID3算法也存在缺点,首先ID3算法倾向于选择取值较多的属性,而在大多数情况下多值属性不一定是最优的属性;其次,ID3算法只对比较小的数据集有效,且对噪声比较敏感,当训练数据集变大时,决策树可能会随之改变。比较ID3算法,C4.5算法在效率上有了很大的提高。不仅可以直接处理连续型属性,还可以允许训练样本集中出现属性空缺的样本。生成的决策树的分枝也较少。信息增益函数对于那些可能产生多分支输出的测试倾向于产生大的函数值,但是输出分支多不表示该测试对未知的对象具有更好的预测效果。信息增益率函数可以弥补这个缺陷。以往的经验说明信息增益率函数比信息增益函数更健壮,能稳定的选择好的测试。CART是Classification AndRegression Tree的简称,可以处理高度倾斜或多态的数值型数据,也可处理顺序或无序的类属性数据。CART选择具有最小gini系数值的属性作为测试属性,gini值越小,样本的“纯净度”越高,划分效果越好。
ID3算法是数据挖掘中一个重要的分类算法该算法用信息增益作为分裂属性算择的标准,生成的决策树结构简单,结果可读性好。然而,ID3算法并不适用于连续数据,且倾向于选择多值属性分裂。目前虽然提出基于模糊集和粗糙集的改进方案,用条件属性的粗糙度代替属性的信息熵作为分裂的标准,以解决ID3算法倾向选择多值属性的问题。而对于ID3无法处理连续值的问题,C4.5和CART算法可以解决。C4.5算法对连续属性进行分割并使分割信息熵最小,采用信息增益率作为分裂属性的标准。CART算法在属性值连续的情况下,使用最小剩余方差来判定回归树的最优划分,生成回归树。但是C4.5和CART算法的输出结果带有连续属性值的具体范围,不易于理解。客观世界中,存在这样一类数
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811193658.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模型训练方法及相关设备
- 下一篇:时态数据集上的实体识别方法