[发明专利]一种数据挖掘系统中决策树的生成方法及装置无效
| 申请号: | 200910236747.6 | 申请日: | 2009-10-28 |
| 公开(公告)号: | CN102054002A | 公开(公告)日: | 2011-05-11 |
| 发明(设计)人: | 邓超;徐萌;高丹;罗治国;周文辉;孙少陵;肖建明;段云峰 | 申请(专利权)人: | 中国移动通信集团公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
| 地址: | 100032 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据 挖掘 系统 决策树 生成 方法 装置 | ||
1.一种数据挖掘系统中决策树的生成方法,其特征在于,包括:
A、遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;
B、根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,确定所述每个候选节点分别对应的数据属性的属性值;
C、根据所述每个候选节点分别对应的属性值,分别生成所述每个节点的决策树分支;
D、分别判断每个所述决策树分支下的节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,并将所述下一层作为当前层返回步骤A,将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。
2.如权利要求1所述的方法,其特征在于,若当前层为所述决策树的第一层,则当前层包括一个候选节点并且所述候选节点对应的未分类数据集为所述设定数据集合;
若当前层为所述决策树第一层与最后一层之间的层,则当前层包括至少一个候选节点并且所述候选节点对应的未分类数据集为所述设定数据集合中符合所述候选节点所在分支对应属性值的数据集合。
3.如权利要求1所述的方法,其特征在于,所述预先确定的设定数据属性为所述数据集合对应的数据属性中的一种。
4.如权利要求3所述的方法,其特征在于,若当前层为所述决策树的第一层,则所述未分类数据属性为所述数据集合对应的数据属性中除所述设定数据属性以外的数据属性;
若当前层为所述决策树第一层与最后一层之间的层,则所述未分类数据属性为所述数据集合对应的数据属性中除所述设定数据属性以及所述候选节点所在分支各节点分别对应的数据属性以外的数据属性。
5.如权利要求1所述的方法,其特征在于,所述根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,确定所述每个候选节点分别对应的数据属性的属性值,包括:
根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,以并行方式确定所述每个候选节点分别对应的数据属性;以及,
确定所述每个候选节点分别对应的数据属性的属性值。
6.如权利要求5所述的方法,其特征在于,确定一个候选节点对应的数据属性,包括:
以并行方式确定所述候选节点对应的未分类数据集的各未分类数据属性的信息增益值;
确定具有最大信息增益值的数据属性为所述候选节点对应的数据属性。
7.如权利要求6所述的方法,其特征在于,确定所述候选节点对应的未分类数据集的一个未分类数据属性的信息增益值,包括:
以并行方式计算所述未分类数据属性的各属性值对应设定类别的频度;
根据计算得到的所述频度,确定所述未分类数据属性对应的信息熵,并根据所述信息熵确定所述未分类数据属性的信息增益值。
8.一种数据挖掘系统中决策树的生成装置,其特征在于,包括:
未分类数据集确定单元,用于遍历设定数据集合,确定决策树当前层每个候选节点分别对应的未分类数据集;
属性值确定单元,用于根据所述未分类数据集确定单元确定的每个候选节点分别对应的未分类数据集的未分类数据属性,确定所述每个候选节点分别对应的数据属性的属性值;
决策树分支确定单元,用于根据所述属性值确定单元确定的每个候选节点分别对应的属性值,分别生成所述每个节点的决策树分支;
判断单元,用于分别判断所述决策树分支确定单元确定的每个所述决策树分支下的节点对应的未分类数据集中的数据是否为预先确定的设定数据属性的同一属性值,将判断结果为否的决策树分支下的节点确定为当前层的下一层的候选节点,并将所述下一层确定为当前层控制所述未分类数据集确定单元执行决策树当前层每个候选节点分别对应的未分类数据集的操作,将判断结果为是的决策树分支下的节点分别确定为其所在分支的最后一个节点。
9.如权利要求8所述的装置,其特征在于,所述属性值确定单元包括:
属性确定模块,用于根据所述每个候选节点分别对应的未分类数据集的未分类数据属性,以并行方式确定所述每个候选节点分别对应的数据属性;
属性值确定模块,用于确定所述每个候选节点分别对应的数据属性的属性值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910236747.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





