[发明专利]一种基于Relief和互信息的特征选择算法在审
申请号: | 201810519640.1 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108875795A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 王红滨;褚慈;谢晓东;王勇军;原明旗;王念滨;周连科;秦帅;李浩然;白云鹏 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征选择算法 最优特征子集 权重 互信息 计算机算法 复合特征 评价准则 冗余特征 二分类 准确率 放入 空集 去除 算法 更替 改进 返回 | ||
1.一种基于Relief和互信息的特征选择算法,其特征在于:步骤如下,
步骤一:将最优特征子集设置成空集,并将最优特征子集的权重设置成整型类型数字的最小值;
步骤二:选择一个数据中的所有特征中不属于最优特征子集中的特征,将其放入候选最优特征子集中,并通过复合特征评价准则计算当前候选最优特征子集的权重;
步骤三:如果此时候选最优特征子集的权重大于上一次计算得到的最优特征子集权重,则将最优特征子集权重更新为当前候选最优特征子集的权重,并将当前的候选特征子集作为最优特征子集;
步骤四:如果此时候选最优特征子集的权重小于上一次计算得到的最优特征子集权重,则将该特征从当前数据的待选特征中去除;
步骤五:若还有待选特征,则从返回步骤二继续计算;否则,算法结束。
2.根据权利要求1所述的一种基于Relief和互信息的特征选择算法,其特征在于:所述的特征子集的权重计算过程如下:首先重新定义在由已选特征子集构成的NS维特征子空间subspaceS中的两点间距离公式(1)如下所示,
其中,公式(1)中1≤m1,m2≤M且dM代表的是输入两个向量间的曼哈顿距离,distmax所代表的意义如公式(2)所示,
由公式(1)和(2),现定义与所属同一类别的最近邻的数据点为与处于不同类别的最近邻的数据点定义为因此,在由已选特征子集构成的NS维特征子空间subspaceS中,与之间的差异如公式(3)所示,
与之间的差异如公式(4)所示,
通过公式(3)与公式(4),可以得到在由已选特征子集构成的NS维特征子空间subspaceS中,由单样本m计算得到的当前的特征子集S的特征子集权重公式(5)如下所示,
最后,由公式(5)可以得到当前的已选特征子集S的特征权重公式(6)所示,采用基于改进Relief权重的FSIRW(Feature selection algorithm based on Improved ReliefWeight)特征选择算法,FSIRW算法的特征搜索部分采用序列前向搜索策略进行特征的搜索。
3.根据权利要求1所述的一种基于Relief和互信息的特征选择算法,其特征在于:特征子集的权重评价过程如下:
采用基于互信息的特征评价函数,在基于香农信息熵的范畴内,计算特征间的互信息必须提前计算获得对应特征的概率分布p(x)、联合概率分布P12(xi,yi),将特征选择方法归结到基于Renyi熵的互信息,用以解决基于香农熵中的计算互信息所出现的问题,其中基于Renyi熵的互信息计算公式(7)如下所示。
其中,公式(7)中的表示基于Renyi熵的互信息,表示二次Renyi熵的信息熵,表示基于二次Renyi熵的联合信息熵;
Renyi熵其实是通过香农信息熵通过添加一个额外的参数q拓展而来,Renyi熵的计算公式(8)如下所示,
通过使用二次Renyi信息熵(即当Renyi熵公式(8)中的参数q=2的时候)计算特征间互信息时,可以直接从原始数据集中估计计算得出,所以信息势函数V(X)=∫p1(x)2可以通过公式(9)直接计算得来,其中公式(9)中的函数G(x,h)指的是高斯核函数,高斯核函数公式(10)如下所示,其中的D表示特征集的特征数量,k和j代表样本的特征维度n和D一样代表样本的特征数量,
因此通过使用数据的样本和代替了复杂的概率密度函数计算数值积分值的工作,使用Renyi熵的二次熵值可以表示成公式(11)的形式,公式(11)如下所示,
同理使用Renyi熵的联合信息熵可以表示成公式(12)的形式,
将公式(12)中的公式进一步推导得到如下公式(13)所示的形式,当使用基于Renyi熵进行互信息的计算的过程中,可以直接基于样本数据之间的和便能够估算得到两个样本特征之间的互信息的取值,
4.根据权利要求3所述的一种基于Relief和互信息的特征选择算法,其特征在于:
所述的特征评价函数为QJMI(Quadratic Joint Mutual Information)特征选择评价函数,以Renyi熵的二次互信息为基础,通过使用Renyi熵的二次互信息,直接根据数据集的数据计算得到特征间互信息的值,在通过互信息对特征冗余相关度进行判断时,若新增的特征加入到已选特征后,使得新的特征子集与最终输出的特征子集以及当前已选的特征子集间具有更大的互信息值,但已选特征和新增特征具有较低的冗余时,那么该特征则是特征选择中应加入已选特征集的理想特征,该评价函数考虑候选特征集XC中的所有特征,逐一的检查每一个候选特征与已选特征子集之间的关系,计算公式如下所示,该评价标准将候选特征集中具有最大值的候选特征XC选出放入到已选特征子集中,QJMI评价函数公式(14)如下所示
该函数在结合特征选择方法进行计算时,会评估每一组可能的候选特征子集,并选择出具有最大二次互信息的特征子集,
在应用QJMI评价函数的算法开始阶段,应使已选特征子集为空,此时,QJMI评价标准仅需要考虑候选特征集合中的特征和输出之间的关系,而不需要考虑和已选特征子集的相互作用,在接下来的计算中,QJMI评价标准则由两部分组成:
第一部分的评判函数是对候选特征中在当前已选特征子集的前提下,和输出之间的相关性,并对这部分的权重进行加权;
第二部分评判候选特征与已选的特征子集的相关性;
第一部分的计算值减去第二部分的计算值,构成了整体的评价标准。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810519640.1/1.html,转载请声明来源钻瓜专利网。