[发明专利]基于最大相关最小冗余和排序的特征选择方法在审
申请号: | 201810089183.7 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108509388A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 郭继昌;顾翔元;李重仪 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 冗余 特征选择 排序 最大相关 互信息 候选特征 机器学习 数据挖掘技术 数据挖掘 标签 应用 | ||
1.一种基于最大相关最小冗余和排序的特征选择方法,其特征是,首先利用类标签与候选特征的互信息值来表述相关,利用候选特征与已选特征间互信息值的平均值来表述冗余;然后,利用排序思想分别对相关部分和冗余部分进行处理,实现基于最大相关最小冗余和排序的特征选择。
2.如权利要求1所述的基于最大相关最小冗余和排序的特征选择方法,其特征是,具体地:X为一离散随机变量,p(x)为该变量的概率密度函数,信息熵被用来表述所获信息量的大小,信息熵H(X)表示为:
对于服从联合分布为p(x,y)的变量X和变量Y,其联合熵H(X,Y)表示为:
X和Y的互信息I(X;Y)表示为:
I(X;Y)=I(Y;X) (4)
其中,p(x)、p(y)分别为变量X、Y的概率密度函数,p(x,y)为变量X和Y的联合概率密度函数,I(Y;X)为Y和X的互信息,X和Y的互信息I(X;Y)与X的熵H(X)、Y的熵H(Y)和联合熵H(X,Y)有如下关系:
I(X;Y)=H(X)+H(Y)-H(X,Y) (5)
候选特征fi与类标签的互信息I(fi;c),表明该特征fi与类标签c的相关程度,其值越大,表明特征与类标签越相关;候选特征fi与已选特征间互信息值的平均值,表明该特征fi与已选特征间的冗余程度,其值越大,表明候选特征与已选特征越冗余,与类标签互信息值越大而与已选特征间互信息值的平均值越小的候选特征,其特征选择效果越显著。
3.如权利要求1所述的基于最大相关最小冗余和排序的特征选择方法,其特征是,特征选择过程如下:首先,对候选特征集和已选特征集进行初始化,并计算候选特征集中特征与类标签的互信息值,选取具有最大互信息值的特征;然后,验证已选特征数是否大于特征设定个数N,如果已选特征数小于N,先计算候选特征与已选特征间互信息值的平均值,然后计算式(6):
J(fi)=CMI(fi;c)-FMI(fi;fs) (7)
如果式(6)的最大值和次最大值的差值大于某一确定值P值,选取使式(6)取得最大值所对应的特征;否则,先分别对候选特征与类标签的互信息值和候选特征与已选特征间互信息值的平均值进行排序,得到这两部分值的序值,CMI(fi;c)为式(6)第一部分经排序而得到的序值,FMI(fi;fs)为式(6)第二部分经排序而得到的序值;接着计算式(7),验证使式(7)取得最大值的特征数,如果存在多个特征,从这些具有最大序值差的特征中选取与类标签具有最大互信息值的特征;否则,选取具有最大序值差的特征。按照上述过程循环选取特征,直至选取特征数为N,结束循环。
4.如权利要求1所述的基于最大相关最小冗余和排序的特征选择方法,其特征是,一个实例中具体步骤如下:
步骤1:调用WEKA软件,使用最小描述长度离散方法对数据特征进行离散化;
步骤2:初始化S和X,令S为空集,X为数据集的所有特征,P值设为0.02;
步骤3:令式(3)中的X=fi,Y=c,利用式(3)计算X中所有特征与类标签c的互信息I(fi;c);
步骤4:从X中取出与类标签具有最大互信息值的特征fi,并放入S中;
步骤5:令式(3)中的X=fi,Y=fs,利用式(3),先计算X中的特征与S中所有特征的互信息值,然后计算其平均值
步骤6:计算式(6),如果式(6)的最大值和次最大值的差值大于P值,选取使式(6)取得最大值所对应的特征fi;否则,进行步骤7、步骤8和步骤9;
步骤7:对I(fi;c)进行排序,得到I(fi;c)的序值CMI(fi;c);
步骤8:对进行排序,得到序值FMI(fi;fs);
步骤9:计算式(7),并验证使式(7)取得最大序值差的特征数,如果特征数大于1,进行步骤10;否则,进行步骤11;
步骤10:从这些具有最大序值差的特征中选取与类标签具有最大互信息值的特征,将该特征从X中取出,并放入S中;
步骤11:从X中取出具有最大序值差的特征,并放入S中;
步骤12:多次进行步骤5、步骤6、步骤7、步骤8、步骤9、步骤10和步骤11,直到选取出N个特征,S为该算法选取的特征子集,|S|为特征子集的个数。当数据集的特征数大于50时,N取50;否则,N取数据集的特征数,特征放入S中的顺序即是该算法特征选择的顺序;
步骤13:令步骤2的P值分别设为0.03、0.04、0.05和0.06,进行步骤1、步骤2、步骤3、步骤4、步骤5、步骤6、步骤7、步骤8、步骤9、步骤10、步骤11和步骤12;
测试步骤:
步骤14:利用WEKA软件,对选取特征的性能进行测试;
步骤14.1:利用WEKA软件,选取S中的前1个、前2个、…、前N个特征;
步骤14.2:采用C4.5分类器和十折交叉验证方法对选取的特征进行实验;
步骤14.3:每组实验均进行10次,取其平均值作为最终结果;
步骤14.4:将步骤14.2中的C4.5分类器换为只基于一个最近邻实例(Instance Base1,IB1)分类器和朴素贝叶斯(Bayesian)分类器,进行步骤14.1、步骤14.2和步骤14.3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810089183.7/1.html,转载请声明来源钻瓜专利网。