[发明专利]一种改进的基于Markovblanket红外光谱特征选择算法在审
申请号: | 201710791401.7 | 申请日: | 2017-09-05 |
公开(公告)号: | CN107577457A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 吕子敬;韩顺利;张志辉;刘磊;张鹏 | 申请(专利权)人: | 中国电子科技集团公司第四十一研究所 |
主分类号: | G06F8/30 | 分类号: | G06F8/30 |
代理公司: | 北京天奇智新知识产权代理有限公司11340 | 代理人: | 陈永宁 |
地址: | 266000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 改进 基于 markovblanket 红外 光谱 特征 选择 算法 | ||
技术领域
本发明属于红外光谱特征选择技术领域,尤其涉及的是一种改进的基于Markovblanket红外光谱特征选择算法。
背景技术
在当今的信息化时代,信息技术日新月异,计算机应用不断更新,红外光谱数据集的规模也就随之而不断扩大,然而,由于光谱数据集中往往存在着大量的冗余信息,这些冗余信息对机器学习算法的执行效率产生了重要的影响,去除光谱数据集中的冗余信息就成为了特征选择算法所要解决的关键问题。特征选择算法的应用领域非常广泛,最突出的就是应用在物质分析领域,例如:特征选择算法可应用于红外光谱分析仪的红外光谱特征提取的过程,此算法能够更加准确的选择出原始光谱的目标信息,删除冗余信息,为后续准确的进行物质成分分析提供了强有力的保障。Filter型特征选择算法具有计算代价小、效率高、适用范围广的特点。目前,国内外学者所研究的很多高效Filter型特征选择算法普遍存在的一个问题是一些作为特征集具有较强的表达特性,但就其本身而言具有较弱表达特性的特征在选择过程中会被遗漏。其主要原因是:这些特征选择算法及其采用的信息度量方法忽略了特征的内部相关性。综上考虑,提出了改进的基于Markovblanket红外光谱特征选择算法(MBDWFS)。
在现有技术中,论文“光谱数据挖掘中的特征提取方法”(天文学进展,第30卷第1期,第94-105页,2012年2月)介绍了一种光谱特征提取的方法——主成分分析法(PCA),该方法将已有的众多指标进行分解、重组,形成一系列线性无关的综合指标,并按照它们反映原始信号所蕴含信息的能力从高到低进行排序。在该文献中,作者采样一批不同天体的观测数据,构造该观测数据的协方差矩阵,然后采用该协方差矩阵的无偏估计进行PCA分析,获取该矩阵的所有特征值和其对应的特征向量,最后依据累积方差贡献率筛选出最优的特征空间,这样达到了数据压缩的目的,以利于高效的计算,并抑制噪声等干扰因素对物质分析结果的不利影响。缺点:现有技术在进行光谱的特征选择过程中遗漏掉了一些重要信息,这样会影响到后续物质分析的准确性。
因此,现有技术存在缺陷,需要改进。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种改进的基于Markovblanket红外光谱特征选择算法。
本发明的技术方案如下:
一种改进的基于Markovblanket红外光谱特征选择算法,其中,包括以下步骤:
步骤1:计算候选特征集S中所有特征fn与类标签C的相关性度量值SU,找出SU最大的值作为初始权重w(f),并把SU值最大的特征f加入到已选特征集W中,删除候选特征集S中的此特征;
步骤2:以新加入到已选特征集W的特征f作为条件计算所有特征fn的条件相关性度量值CSU的值,找出初始权重w(f)与CSU相乘后的最大值,并把该值作为新的权重,同时把新的最大权重值对应的特征f选入已选特征集W中,并将该特征从候选特征集S中删除;
步骤3:运用近似MarkovBlanket删除已选特征集W中冗余性较高的特征,直到候选特征集S为空,从而获取到最优特征空间Sbest。
采用上述方案,不仅可以去掉红外光谱特征原始空间中的无关和冗余特征,而且能够更好的保留内部成员相互关联的改进的基于Markovblanket红外光谱特征选择算法。本发明更好的删除了红外光谱原始空间中的无关和冗余特征,并且不会遗漏掉重要信息,更好的保留了内部成员的相互关联,为后续的物质匹配提供了良好技术保障。
附图说明
图1为本发明算法与FCBF﹑ID3以及ReliefF三种算法在DNA_ALL上的平均准确率曲线图。
图2为本发明算法与FCBF﹑ID3以及ReliefF三种算法在Kr-vs-kp上的平均准确率曲线图。
图3为本发明算法与FCBF﹑ID3以及ReliefF三种算法在Lung_Cance日上的平均准确率曲线图。
图4为本发明方法流程图。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明。
实施例1
为了克服现有技术的缺陷,本发明提出的新的方法,如图4所示,具体步骤描述如下:
步骤1:计算候选特征集S中所有特征fn与类标签C的相关性度量值SU,找出SU最大的值作为初始权重w(f),并把SU值最大的特征f加入到已选特征集W中,删除候选特征集S中的此特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第四十一研究所,未经中国电子科技集团公司第四十一研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710791401.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种客车底架前端缓冲机构
- 下一篇:侧围外板