[发明专利]一种基于邻域条件互信息的交互特征选择方法在审
申请号: | 202110305125.5 | 申请日: | 2021-03-19 |
公开(公告)号: | CN112860819A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 陈红梅;万继红;李天瑞;罗川;胡节 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06N5/00 |
代理公司: | 成都盈信专利代理事务所(普通合伙) 51245 | 代理人: | 张澎 |
地址: | 611756 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 邻域 条件 互信 交互 特征 选择 方法 | ||
本发明公开了一种基于邻域条件互信息的交互特征选择方法,首先针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵;其次利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性;基于这种关联性,一种最大相关性,最小冗余性和最大交互性(MRmRMI)的特征重要性的评价函数被构建;利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;最后,通过在不同分类器上的测试选择出最终的约简特征子集,该特征子集即为所求最佳平均分类性能所对应的特征子集序列。与其他六种流行的特征选择算法比较,本发明方法具有较高的分类性能和更为显著的分类效果。
技术领域
本发明属于数据挖掘技术领域,是一种针对含噪声和不确定性混合数据的特征选择方法,该方法综合考虑了特征与类之间相关性及特征之间冗余性和交互性。
背景技术
近年来,大数据应用的发展对高维数据的理解和处理提出了更高的要求。特别是,大量具有噪声、无关或冗余特征的数据集为数据挖掘、知识发现和模式识别带来了巨大的挑战。由于维数灾难的存在,如何从所有特征中选择最优的特征子集被认为是各种学习任务中值得研究的课题。针对这一问题,人们提出了许多特征选择方法,这些方法致力于去除不相关的特征,消除特征之间的冗余。
由于不一致、噪声和混合数据在实际模型构建中的普遍存在,以信息理论为代表的不确定性度量被引入邻域粗糙集中用以进行属性约简。近年来,许多基于信息理论的邻域粗糙集特征选择方法取得了很大的进步。然而,这些方法忽略了特征之间由于相互依赖性所产生的交互作用,使得一些重要信息丢失,从而影响最终的学习效果。
特征交互性指的是那些单独的特征出现时与类的相关性不大,但当其与其它特征进行结合时可为分类提供较大的联合信息。例如,在生物数据分析领域,一个复杂机体内生理和病理的改变受到分子间彼此交互的影响。文献1“High-dimensional hybrid featureselection using interaction information-guided search”(S.Nakariyakul,Knowledge-Based Systems,vol.145,pp.59-66,2018)所提出的interactioninformation-guided incremental selection(IGIS)算法中,首先利用互信息衡量特征与类之间的相关性,并选择出具有最大相关性的特征;然后利用信息增益探究特征与已选特征之间的交互性,并选择出具有最大交互的特征;最后利用封装式的方法选择出具有最佳分类精度所对应的特征子集。该过程的流程图如附图1所示。然而,IGIS算法中所刻画的特征与已选特征之间的交互实际上强调的是特征之间的互补性。特征之间的联合交互性并没有得到很好地体现,该方法混淆了特征之间的互补性和交互性;另一方面,不一致和混合数据的存在使得IGIS算法在通用性和可移植性上受到了进一步的限制。迫切需要一种考虑不一致数据和混合数据交互的特征选择方法。
发明内容
鉴于现有技术的以上不足,本发明的目的在于针对含噪声和不确定性的混合数据,通过将特征之间的交互性进行重新刻画,从特征与候选特征之间的关系上进行交互性的探索,获得一种基于邻域条件互信息的交互特征选择方法,使之克服现有技术的以上缺点。
本发明实现发明目的所采用的技术方案是:一种基于邻域条件互信息的交互特征选择方法,首先,针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵;其次,利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性;基于这种关联性,一种最大相关性,最小冗余性和最大交互性(MRmRMI)的特征重要性的评价函数被构建;利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;最后,通过在不同分类器上的测试选择出最终的约简特征子集,该特征子集即为所求最佳平均分类性能所对应的特征子集序列;包括以下主要操作步骤:
步骤1:混合数据预处理
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110305125.5/2.html,转载请声明来源钻瓜专利网。