[发明专利]基于最大相关最小冗余和排序的特征选择方法在审
申请号: | 201810089183.7 | 申请日: | 2018-01-30 |
公开(公告)号: | CN108509388A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 郭继昌;顾翔元;李重仪 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 冗余 特征选择 排序 最大相关 互信息 候选特征 机器学习 数据挖掘技术 数据挖掘 标签 应用 | ||
本发明属于机器学习、数据挖掘技术领域,为提出新的基于互信息的特征选择方法。为此,本发明采用的技术方案是,基于最大相关最小冗余和排序的特征选择方法,首先利用类标签与候选特征的互信息值来表述相关,利用候选特征与已选特征间互信息值的平均值来表述冗余;然后,利用排序思想分别对相关部分和冗余部分进行处理,实现基于最大相关最小冗余和排序的特征选择。本发明主要应用于机器学习、数据挖掘场合。
技术领域
本发明属于机器学习、数据挖掘技术领域,涉及一种基于最大相关最小冗余和排序思想的特征选择算法。具体讲,涉及基于最大相关最小冗余和排序的特征选择方法。
背景技术
作为维数约简的一种重要方式,特征选择是利用不同的度量标准对特征进行度量,从原始特征中选取效果显著的特征作为最终特征。依据不同的度量标准,特征选择算法包括基于互信息的算法、基于一致性的算法和基于距离的算法等,由于互信息具有空间变换不变性和可以描述线性相关、非线性相关等优点,很多基于互信息的特征选择算法被提出。
基于最大相关最小冗余思想的算法是基于互信息算法中的一类典型算法,该类算法能够取得较好的特征选择效果。针对基于最大相关最小冗余思想的算法,人们主要从以下两个方面展开研究:一种是先构造出基于最大相关最小冗余思想的目标函数,然后基于所提的目标函数,提出基于互信息的特征选择算法;另一种是将基于最大相关最小冗余思想的算法与其他思想进行结合,提出基于互信息的特征选择算法。本发明对第二种情况的特征选择进行研究,将基于最大相关最小冗余思想的算法与排序思想进行结合,提出一种基于最大相关最小冗余和排序思想的特征选择算法。
发明内容
为克服现有技术的不足,本发明旨在提出新的基于互信息的特征选择方法。为此,本发明采用的技术方案是,基于最大相关最小冗余和排序的特征选择方法,首先利用类标签与候选特征的互信息值来表述相关,利用候选特征与已选特征间互信息值的平均值来表述冗余;然后,利用排序思想分别对相关部分和冗余部分进行处理,实现基于最大相关最小冗余和排序的特征选择。
具体地:X为一离散随机变量,p(x)为该变量的概率密度函数,信息熵被用来表述所获信息量的大小,信息熵H(X)表示为:
对于服从联合分布为p(x,y)的变量X和变量Y,其联合熵H(X,Y)表示为:
X和Y的互信息I(X;Y)表示为:
I(X;Y)=I(Y;X) (4)
其中,p(x)、p(y)分别为变量X、Y的概率密度函数,p(x,y)为变量X和Y的联合概率密度函数,I(Y;X)为Y和X的互信息,X和Y的互信息I(X;Y)与X的熵H(X)、Y的熵H(Y)和联合熵H(X,Y)有如下关系:
I(X;Y)=H(X)+H(Y)-H(X,Y) (5)
候选特征fi与类标签的互信息I(fi;c),表明该特征fi与类标签c的相关程度,其值越大,表明特征与类标签越相关;候选特征fi与已选特征间互信息值的平均值,表明该特征fi与已选特征间的冗余程度,其值越大,表明候选特征与已选特征越冗余,与类标签互信息值越大而与已选特征间互信息值的平均值越小的候选特征,其特征选择效果越显著。
特征选择过程如下:首先,对候选特征集和已选特征集进行初始化,并计算候选特征集中特征与类标签的互信息值,选取具有最大互信息值的特征;然后,验证已选特征数是否大于特征设定个数N,如果已选特征数小于N,先计算候选特征与已选特征间互信息值的平均值,然后计算式(6),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810089183.7/2.html,转载请声明来源钻瓜专利网。