[发明专利]基于决策树的网构软件中的构件分类方法在审
| 申请号: | 201410789471.5 | 申请日: | 2014-12-17 |
| 公开(公告)号: | CN104537010A | 公开(公告)日: | 2015-04-22 |
| 发明(设计)人: | 相徐斌;叶修梓;洪振杰;张三元 | 申请(专利权)人: | 温州大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
| 地址: | 325035*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 决策树 软件 中的 构件 分类 方法 | ||
1.一种基于决策树的网构软件中的构件分类方法,其特征在于包括如下:
1)在网构软件的构件库中新加入构件,对于新加入构件的分类使用数据挖掘中的决策树技术;
2)使用基于信息增益的ID3算法对新加入构件的推荐度进行分析,建立决策树,完成构件分类。
2.如权利要求1所述的网构软件中的构件分类方法,其特征在于所述的决策树技术为:决策树技术是用于分类和预测的技术,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,它采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支,然后进行剪枝,最后在决策树的叶节点得到结论;决策树的根节点是整个数据集合空间,即网构软件构件库中所有的构件,每个分节点是对一个单一属性的测试,该测试将数据集合空间分割成两个或更多块,每个叶节点是属于单一类别的记录。
3.如权利要求1所述的网构软件中的构件分类方法,其特征在于所述的基于信息增益的ID3算法具体为:在决策树各级结点上选择属性时,通过计算信息增益来选择属性,以使得在每一个非叶结点进行测试时,能获得关于被测试记录最大的类别信息,实现方法为:检测所有的属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一类别的数据为止,最后得到一棵决策树,它用来对新的样本进行分类。
4.如权利要求3所述的网构软件中的构件分类方法,其特征在于所述的基于信息增益的ID3算法的信息增益,具体为:信息增益用来衡量某个属性中的值为整个分类所能提供的信息量,在决策树算法中,信息增益量越大,这个属性作为一棵树的根节点就能使这棵树更简洁,在信息增益计算方面,使用3个公式;信息增益需要使用到熵的概念,熵的概念如公式(1)所示:
在公式(1)中,S表示样本集合,k是样本数量,P(i)是属于分类i的样本与整个样本集合的比例,熵的取值范围是0~1,如果所有S属于相同的类,则熵为0,即数据分类完毕;如果熵取值为1,则代表S中样本是完全随机的选自不同的类;
Entropy(S,A)=Σ(|Sv|/|S|)*Entropy(Sv) (2)
Entropy(S,A)是属性A在集合S上的熵,Sv是属性A对应的有v值的子集,公式(2)是把属性A的所有可能的值都分别作了运算,并把结果相加,|Sv|指集合Sv中的元素个数,|S|指集合S中的元素个数;
Gain(S,A)是属性A在集合S上的信息增益,Gain(S,A)的值越大,说明选择测试属性A对分类提供的信息越多,如公式(3)所示:
Gain(S,A)=Entropy(S)-Entropy(S,A) (3)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学;,未经温州大学;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410789471.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:歌唱排名方法及装置
- 下一篇:通用的数据迁移方法和装置





