[发明专利]基于最大相关最小冗余和排序的特征选择方法在审

申请号：	201810089183.7	申请日：	2018-01-30
公开（公告）号：	CN108509388A	公开（公告）日：	2018-09-07
发明（设计）人：	郭继昌;顾翔元;李重仪	申请（专利权）人：	天津大学
主分类号：	G06F17/18	分类号：	G06F17/18
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	刘国威
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	冗余特征选择排序最大相关互信息候选特征机器学习数据挖掘技术数据挖掘标签应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于最大相关最小冗余和排序的特征选择方法，其特征是，首先利用类标签与候选特征的互信息值来表述相关，利用候选特征与已选特征间互信息值的平均值来表述冗余；然后，利用排序思想分别对相关部分和冗余部分进行处理，实现基于最大相关最小冗余和排序的特征选择。

2.如权利要求1所述的基于最大相关最小冗余和排序的特征选择方法，其特征是，具体地：X为一离散随机变量，p(x)为该变量的概率密度函数，信息熵被用来表述所获信息量的大小，信息熵H(X)表示为：

对于服从联合分布为p(x,y)的变量X和变量Y，其联合熵H(X,Y)表示为：

X和Y的互信息I(X；Y)表示为：

I(X；Y)＝I(Y；X) (4)

其中，p(x)、p(y)分别为变量X、Y的概率密度函数，p(x,y)为变量X和Y的联合概率密度函数，I(Y；X)为Y和X的互信息，X和Y的互信息I(X；Y)与X的熵H(X)、Y的熵H(Y)和联合熵H(X,Y)有如下关系：

I(X；Y)＝H(X)+H(Y)-H(X,Y) (5)

候选特征f_i与类标签的互信息I(f_i；c)，表明该特征f_i与类标签c的相关程度，其值越大，表明特征与类标签越相关；候选特征f_i与已选特征间互信息值的平均值，表明该特征f_i与已选特征间的冗余程度，其值越大，表明候选特征与已选特征越冗余，与类标签互信息值越大而与已选特征间互信息值的平均值越小的候选特征，其特征选择效果越显著。

3.如权利要求1所述的基于最大相关最小冗余和排序的特征选择方法，其特征是，特征选择过程如下：首先，对候选特征集和已选特征集进行初始化，并计算候选特征集中特征与类标签的互信息值，选取具有最大互信息值的特征；然后，验证已选特征数是否大于特征设定个数N，如果已选特征数小于N，先计算候选特征与已选特征间互信息值的平均值，然后计算式(6)：

J(f_i)＝CMI(f_i；c)-FMI(f_i；f_s) (7)

如果式(6)的最大值和次最大值的差值大于某一确定值P值，选取使式(6)取得最大值所对应的特征；否则，先分别对候选特征与类标签的互信息值和候选特征与已选特征间互信息值的平均值进行排序，得到这两部分值的序值，CMI(f_i；c)为式(6)第一部分经排序而得到的序值，FMI(f_i；f_s)为式(6)第二部分经排序而得到的序值；接着计算式(7)，验证使式(7)取得最大值的特征数，如果存在多个特征，从这些具有最大序值差的特征中选取与类标签具有最大互信息值的特征；否则，选取具有最大序值差的特征。按照上述过程循环选取特征，直至选取特征数为N，结束循环。

4.如权利要求1所述的基于最大相关最小冗余和排序的特征选择方法，其特征是，一个实例中具体步骤如下：

步骤1：调用WEKA软件，使用最小描述长度离散方法对数据特征进行离散化；

步骤2：初始化S和X，令S为空集，X为数据集的所有特征，P值设为0.02；

步骤3：令式(3)中的X＝f_i，Y＝c，利用式(3)计算X中所有特征与类标签c的互信息I(f_i；c)；

步骤4：从X中取出与类标签具有最大互信息值的特征f_i，并放入S中；

步骤5：令式(3)中的X＝f_i，Y＝f_s，利用式(3)，先计算X中的特征与S中所有特征的互信息值，然后计算其平均值

步骤6：计算式(6)，如果式(6)的最大值和次最大值的差值大于P值，选取使式(6)取得最大值所对应的特征f_i；否则，进行步骤7、步骤8和步骤9；

步骤7：对I(f_i；c)进行排序，得到I(f_i；c)的序值CMI(f_i；c)；

步骤8：对进行排序，得到序值FMI(f_i；f_s)；

步骤9：计算式(7)，并验证使式(7)取得最大序值差的特征数，如果特征数大于1，进行步骤10；否则，进行步骤11；

步骤10：从这些具有最大序值差的特征中选取与类标签具有最大互信息值的特征，将该特征从X中取出，并放入S中；

步骤11：从X中取出具有最大序值差的特征，并放入S中；