[发明专利]一种基于扩展熵的无监督特征的选择方法及系统在审
申请号: | 201710606624.1 | 申请日: | 2017-07-24 |
公开(公告)号: | CN107368587A | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 孙占全;杨美红;李钊 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/08 |
代理公司: | 北京高沃律师事务所11569 | 代理人: | 王戈 |
地址: | 250000 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 扩展 监督 特征 选择 方法 系统 | ||
技术领域
本发明涉及数据特征选择的技术领域,特别是涉及一种基于扩展熵的无监督特征的选择方法及系统。
背景技术
近年来,很多领域的数据规模和数据的维度变得越来越大,如基因工程、文本分类、图像检索、消费者关系管理等。这给很多机器学习算法的扩展性和学习性能都带来很大的问题,如何选择信息量最大的特征子集仍然是机器学习的研究重点问题。
特征选择技术是用来发现原特征集合中相关特征子集,用于聚类、分类和搜索。特征选择是机器学习和模式识别中重要研究内容。针对这个主题已有大量的研究工作,根据是否有标签信息,特征选择主要分成两类,即有监督方法和无监督方法,前者是针对分类的有标签样本,后者主要是针对聚类的无标签样本。许多有监督的特征选择方法已被提出,并应用到很多领域,典型的有监督特征选择方法包括相关系数法、信息增益法、逻辑回归法等,一般来说,有监督特征选择方法要好于无监督方法,但在实际应用中,很多采用的样本是没有标签,如何提高无监督特征选择的性能是目前面临的重要难题。
有监督特征选择方法通常用特征变量与类变量之间的相关性来度量特征的重要性,然而,在实际应用中,获取大量有标签的样本是非常昂贵或不可能的,因此,对于利用大量无标签样本选择信息量大的特征组合的无监督的特征选择方法研究是非常重要的。
目前,已有一些无监督的特征选择方法被提出,如最大方差法、拉普拉斯打分法、基于聚类的方法等。为处理多簇特征选择问题,文献提出了谱回归和基于稀疏空间学习方法。特征选择是要选择原特征集合信息量最大的特征子集,要剔除冗余信息,相关度是度量特征之间相关性的重要测度,不同的相关度测度会导致不同的选择结果,已提出的相关测度有皮尔森相关系数、互信息等。互信息能够度量变量之间的任意统计相关性,但离散变量之间、离散变量与连续变量之间的互信息计算是非常复杂的,特别是联合互信息的计算。基于信息瓶颈理论的信息损失量是一种非常有效的相关测度,已广泛应用到很多应用领域,但基于概率的信息损失不能够处理连续的特征变量,使得选择的特征变量的信息少,使用价值降低。
发明内容
本发明的目的是提供一种基于扩展熵的无监督特征的选择方法及系统,可处理连续的特征变量,以提高选择的特征变量组合的信息量。
为实现上述目的,本发明提供了如下方案:
一种基于扩展熵的无监督特征的选择方法,所述选择方法包括:
根据原始备选特征集中的任意备选特征变量与所述原始备选特征变量集中剩余备选特征变量之间的相关度,从所述原始备选特征集中选择第一个特征变量,并将所述第一个特征变量添加到已选特征集中,从所述原始备选特征集中剔除所述第一个特征变量;
根据当前备选特征集中的任意备选特征变量与所述备选特征集中剩余备选特征变量之间的相关度、当前备选特征集中的任意特征变量与已选特征集之间的信息损失量,确定当前特征变量以及对应的相关度变化参数;
将当前特征变量添加到已选特征集中,更新已选特征集;
判断所述相关度变化参数是否小于设定阈值,如果是则选择结束,当前已选特征集包含全部无监督特征变量;否则,将从当前备选特征集中剔除当前特征变量,更新备选特征集,继续选择下一个特征变量。
可选的,所述根据原始备选特征集中的任意备选特征变量与所述原始备选特征变量集中剩余备选特征变量之间的相关度,从所述原始备选特征集中选择第一个特征变量,具体包括:
根据以下公式确定备选特征集中各个特征变量yi对应的扩展概率r(j|yi):
其中,yi=(yi1,yi2,...,yin),i=1,2,...,m,m表示备选特征变量的序号,n表示每个备选特征变量的特征值的序号,j=1,2,...,n;
将两个备选特征变量yp,yq,p,q∈{1,2,...,m},合并所生成c的扩展概率r(j|c):
根据以下公式计算当前备选特征集中的各备选特征变量与当前备选特征集中其余备选特征变量之间的信息损失量d(yi,{Yk/yi}):
其中,|·|表示向量的势;
根据以下公式确定所述第一个特征变量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710606624.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:UVLED光整形组件
- 下一篇:一种反射器