[发明专利]基于条件互信息的动态特征选择方法在审
申请号: | 202010090358.3 | 申请日: | 2020-02-13 |
公开(公告)号: | CN111275127A | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 周红芳;温婧 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 张皎 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 条件 互信 动态 特征 选择 方法 | ||
本发明公开了基于条件互信息的动态特征选择方法,具体按照以下步骤:步骤1.对数据集进行预处理,得到预处理数据集;步骤2.对预处理数据集进行离散化处理,将预处理数据集中的所有特征划分到不同的特征等级中;步骤3.计算经步骤2离散化处理后的数据集中所有特征X与类变量Y之间的重要程度;步骤4.根据步骤3计算出的特征与类之间的重要程度I(X;Y)后,选择重要程度最大的特征作为重要特征,将重要特征从原特征集合中删除,添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。本发明通过提高特征与类直接的相关性,降低特征与特征之间的冗余性,从而提高特征选择的准确率和效率。
技术领域
本发明属于数据挖掘方法技术领域,涉及基于条件互信息的动态特征选择方法。
背景技术
随着信息科学和计算机技术的飞速发展,特别是多传感器的应用,能够获取的信息数据量越来越大,特征维数也越来越高。数据容量的增多为数据挖掘提供了条件,但同时数据维数的增高会延长模型的建立时间,降低模型的预测能力,因此海量的数据对分类器的设计也提出了更高的要求。这些数据的特征集中,含有大量冗余特征和噪声,因此,能有效地去除不相关特征,精简数据,同时清除数据中的复杂噪声,对提高学习算法的能力并进行有效的数据挖掘十分重要。特征选择就是解决这个问题的关键技术,特征选择指的是从原始特征集合中选择使某种评估标准最优的特征子集,其目的是根据某种特征选择算法挑选出最少的特征子集,使得分类任务达到和特征选择前近似甚至更好的结果,从而促进后续其它目标任务的学习。特征选择算法分为三类,包括嵌入式特征选择算法、包装式特征选择算法和过滤式特征选择算法。嵌入式特征选择算法,其特征选择的过程与分类的过程关系密切,需要在特征选择的过程中完成分类;包装式特征选择算法,通过调用分类器根据分类结果对特征进行评价;而过滤式特征选择算法,其特征选择的过程与分类器完全独立;因此过滤式特征选择在计算上是高效的。
常见的特征选择方法度量方法有很多,例如基于距离,基于卡方检验等。互信息与这些度量方法不同,它从信息学的角度将特征与特征之间的关系以及特征与类之间的关系解释为信息量,在传统的基于互信息的特征选择算法中均使用互信息描述特征之间的关系,而条件互信息比互信息所表示的信息量更精确,同时很多传统的特征选择方法只能静态的衡量特征与类之间的互信息,即当很多候选特征提供的新信息量相同时,模型不知道该选择哪一个而消耗时间,而动态的特征选择算法可以动态衡量在已选特征的条件下,候选特征与类之间的互信息,从而缩减模型训练时间,因此本申请提出了基于条件互信息的动态特征选择方法。
发明内容
本发明的目的是提供一种基于条件互信息的动态特征选择方法,解决现有技术中存在的特征选择方法分类准确率低、效率低的问题。
本发明所采用的技术方案是,基于条件互信息的动态特征选择方法,具体操作步骤如下:
步骤1.对数据集进行预处理,得到预处理数据集;
步骤2.对步骤1得到的预处理数据集进行离散化处理,将预处理数据集中的所有特征划分到不同的特征等级中;
步骤3.计算经步骤2离散化处理后的数据集中所有特征X与类变量Y之间的重要程度;
步骤4.根据步骤3计算出的特征与类之间的重要程度I(X;Y)后,选择重要程度最大的特征作为重要特征,将重要特征从原特征集合中删除,添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其余候选特征。
本发明的特点还在于:
步骤1具体为:
数据集中的每一列为一个特征,每个特征有n行,将每个特征的取值范围压缩到0和1之间,得到预处理后的特征X。
步骤2具体按照以下步骤实施:
步骤2.1,对特征X中的所有元素进行升序排序得到X’;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010090358.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:微服务管理平台
- 下一篇:区块链交易合约审计方法、装置、计算机设备和存储介质