[发明专利]基于多标签学习的无监督特征选择方法及系统有效
| 申请号: | 201911312573.7 | 申请日: | 2019-12-18 |
| 公开(公告)号: | CN111027636B | 公开(公告)日: | 2020-09-29 |
| 发明(设计)人: | 朱磊;石丹 | 申请(专利权)人: | 山东师范大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李琳 |
| 地址: | 250014 山*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 标签 学习 监督 特征 选择 方法 系统 | ||
本公开提供一种基于多标签学习的无监督特征选择方法及系统,包括:对获取的每个数据样本进行特征提取,得到特征数据集,对特征数据集学习二值多标签矩阵和特征选择矩阵,构造基于多标签学习的无监督特征选择目标函数;采用基于增广拉格朗日乘子法的离散优化方法求解基于多标签学习的无监督特征选择目标函数,得到特征选择矩阵;对特征选择矩阵进行排序确定选择的目标特征。同时学习用于语义指导的多标签和执行特征选择,并在谱嵌入中施加二进制约束得到多标签来指导最终的特征选择过程;此外,通过自适应的方式构造动态的样本相似度图捕获数据结构,从而增强多标签的判别能力。
技术领域
本公开涉及特征选择技术领域,具体涉及基于多标签学习的无监督特征选择方法及系统。
背景技术
随着信息技术的快速发展,高维数据涌现在不同的研究领域,如多媒体计算,数据挖掘,模式识别和机器学习等。一方面,高维数据可以提供更加丰富的信息。另一方面,它也带来了一个具有挑战性的维度灾难问题。高维数据中通常包含噪音或异常值,因此直接使用这样的高维数据往往会给后续的学习任务带来不好的影响,甚至会降低方法的性能。为了解决该问题,降维技术被提出,降维技术包含两种不同的处理方法:(1)特征选择;(2)特征提取。
特征选择通过选择重要的、有判别性的特征来降低特征的维度。根据是否依赖数据标签,特征选择技术主要分为两类:(1)有监督的特征选择;(2)无监督的特征选择。其中,无监督特征选择是更实用的,但也是更有难度的任务。对于无监督特征选择,最关键的问题是如何精确地获取特征信息并且利用它来指导特征的选择过程。近些年,现有的方法采用谱分析来探索数据的内在信息结构。这些方法包括两个步骤:首先,通过谱分析创建一个样本相似度图;然后,基于谱嵌入来学习特征选择矩阵。
尽管已经获得了不错的性能,但仍存在一些问题需要被进一步解决:(1) 现有的无监督特征选择方法要么没有标签指导,要么使用单标签来指导选择特征的过程;前者使得选择出的特征语义缺失,后者则会造成信息损失。(2)现有的基于图的特征选择方法创建的图质量不高,通常直接在原始的数据上通过高斯核来构建图,并且该图在整个模型学习过程中保持固定不变。另外,图的创建过程和特征选择过程被分为两个独立的过程,也将使得方法产生次优的结果。
因此,提高技术性能的关键在于:(1)学习更精确的更适合数据本身的标签来指导特征选择。现实世界的数据集包括图像、视频、生物学数据等,通常都是多标签的,而非单一性的。(2)提高图的质量,将谱分析与特征选择更好地联合起来,更准确地指导模型来选择出有价值的特征。
发明内容
为了克服上述现有技术的不足,本公开提供一种基于多标签学习的无监督特征选择方法及系统,同时学习用于语义指导的多标签并执行特征选择,在谱嵌入中施加二进制约束得到多标签来指导最终的特征选择过程;此外,通过自适应的方式构造动态的样本相似度图捕获数据结构,从而增强多标签的判别能力。
为了实现上述目的,本公开采用如下技术方案:
第一方面,本公开提供一种基于多标签学习的无监督特征选择方法,包括:
对获取的每个数据样本进行特征提取,得到特征数据集,对特征数据集学习二值多标签矩阵和特征选择矩阵,构造基于多标签学习的无监督特征选择目标函数;
采用基于增广拉格朗日乘子法的离散优化方法求解基于多标签学习的无监督特征选择目标函数,得到特征选择矩阵;
对特征选择矩阵进行排序确定要选择的目标特征。
作为可能的一些实现方式,所述基于多标签学习的无监督特征选择目标函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911312573.7/2.html,转载请声明来源钻瓜专利网。





