[发明专利]一种基于全局最小冗余的非平衡特征选择方法在审
| 申请号: | 202110682137.X | 申请日: | 2021-06-20 |
| 公开(公告)号: | CN113361620A | 公开(公告)日: | 2021-09-07 |
| 发明(设计)人: | 陈红梅;黄书豪;杨晓玲;李天瑞;罗川 | 申请(专利权)人: | 西南交通大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 成都盈信专利代理事务所(普通合伙) 51245 | 代理人: | 张澎 |
| 地址: | 611756 四川省成都市高*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 全局 最小 冗余 平衡 特征 选择 方法 | ||
本发明提供了一种基于全局最小冗余的非平衡特征选择方法,包括如下步骤:首先根据非平衡数据的特性,在一般LDA散度矩阵的形式上,建立一种强调少数类,改进冗余度量方法的类内散度矩阵的正则化形式SIR;其次,正则化形式SIR和绝对的类间距离向量s分别作为类内散度矩阵和输入特征得分向量,引入到GRM模型中,得到GRM‑DFS算法的目标函数;最后通过增广的拉格朗日乘子法和分段寻根法求解该优化问题。本发明有效的解决了非平衡数据中求解偏向少数类的全局最小冗余特征子集的问题。对于后续的分类算法,GRM‑DFS算法有助于避免过拟合,提高算法性能,从而提高了知识发现的效率。
技术领域
本发明涉及人工智能中粒计算和知识发现领域,具体涉及一种基于全局最小冗余的非平衡特征选择方法。
背景技术
在机器学习领域,类非平衡问题被视为一个关键的问题。类非平衡问题通常出现在一个数据集中少数类的样本远远少于多数类,但少数类又比多数类重要时。近年来,在处理来自医疗诊断、入侵检测和信用评级等领域的真实数据集时,类非平衡问题受到了越来越多研究者的关注,并被视为数据挖掘领域中的十大问题之一。一般地,大多数分类算法都假设样本在所有类之间有较为均衡的分布。当类分布过于倾斜时,传统的机器学习算法生成的分类器倾向于生成偏向多数类,而忽视少数类的分类器,进而造成了少数类的分类效果普遍不理想。为了有效的提高分类算法在非平衡数据上的分类效果,过去数十年中,研究者付诸了大量的工作,这些研究主要分为算法层面和数据层面。算法层面的方法主要针对非平衡问题的特性,改进了分类算法。例如,代价敏感学习从算法层面,通过对少数类样本的错分类设置较高的代价,尝试让模型更多的学习少数类样本的特征。另一方面,数据层面的方法主要使用采样算法重新平衡非平衡数据中不同类样本的分布,其中采样算法分为过采样,欠采样和混合采样算法。
特征选择作为数据预处理的常用技术受到广泛关注,可以删除数据集的冗余特征,达到降低维数,提高分类精度的目的。特征选择致力于于从原始特征空间中选择最具有代表性的特征子集。特征选择方法通过减少噪音和冗余,最大化已选特征与标签之间的关联的同时,降低了特征之间的冗余关系。这不仅提高了学习模型的泛化能力,并且降低了算法的计算复杂度,有利于后续任务。已有的研究证实,特征选择通过选择与少数类更相关的特征,提高了机器学习算法在非平衡数据上的泛化能力和预测效果。近年来,一些考虑非平衡问题的特征选择算法被提出了。在文章《Joint imbalanced classification andfeature selection for hospital readmissions》(Knowledge-Based System,2020)中,作者在非平衡的医院再入院数据集上,提出了一种包裹式的特征选择方法(JICFS)。该算法给予了少数类更多的错分类代价,并通过假设边际理论构造了损失函数项。结合L1稀疏范式和提出的损失函数,得到了JICFS的目标函数。文章《An embedded feature selectionmethod for imbalanced data classification》(IEEE/CAAJournal ofAutoMaticaSinica,2019)中,一种基于CART树的嵌入式特征选择方法被提出了。该文中提出了一种基于少数类更多比例的节点分裂规则,当决定CART树中分裂节点的特征时,该方法通过加权的基尼系数,更多地考虑了特征与少数类的相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110682137.X/2.html,转载请声明来源钻瓜专利网。





