[发明专利]一种基于SVM-RFE和重叠度的特征选择方法在审

专利信息
申请号: 201510932825.1 申请日: 2015-12-14
公开(公告)号: CN105574363A 公开(公告)日: 2016-05-11
发明(设计)人: 范蒙;林晓惠;王家天;郝志强;王珏 申请(专利权)人: 大连理工大学
主分类号: G06F19/24 分类号: G06F19/24;G06K9/62
代理公司: 大连理工大学专利中心 21200 代理人: 梅洪玉
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 svm rfe 重叠 特征 选择 方法
【说明书】:

技术领域

发明属于数据挖掘、生物信息学技术的交叉领域,用于从生物信息中筛 选出具有区分能力特征的方法。

背景技术

在数据挖掘领域,特征选择是一种主要的数据分析方法。近年来,数据呈 现出数据量大,数据类型更加多样,数据所含信息价值低等特点,所以如何从 数据中挖掘出有用的特征信息成为越来越受关注的研究领域。

本发明是一种基于支持向量迭代特征删除算法(SupportVector Machine-RecursiveFeatureElimination,SVM-RFE)和样本重叠度的特征选择方 法。SVM-RFE在迭代过程中采用SVM度量特征的重要性,是一种高性能特征 选择方法,广泛应用于基因、蛋白、代谢等生物信息处理。但随着生物分析技 术的发展,基因、蛋白等生物数据维数巨增,如何从中提取富含信息的变量对 疾病的诊断、药物治疗以及营养等研究具有重要意义。SVM-RFE在迭代删除特 征过程中,会删除那些权重偏低的特征,这里的权重代表特征的重要性,特征 权重越大说明特征蕴含的信息越重要。如何确定迭代过程中的哪一次产生的特 征子集作为最优子集,在有的研究中采用迭代删除到预先确定的特征个数作为 最优子集,有的研究中采用准确率作为评价指标来选择最优子集。在SVM-RFE 的后向迭代特征选择过程中,利用准确率作为评价指标来选择最优特征子集, 准确率的高低反应特征集的区分能力的好坏,但准确率也只是从一个角度来反 应特征子集的区分能力好坏。对于特征子集F,训练样本的重叠度反应了不同类 样本的分布,同样可以反应特征子集F的区分能力。

在用SVM构建模型时,如果某个特征子集具有良好的区分能力,那么基于 该特征子集的支持向量构建的超平面应更易于区分不同类样本,并且不同类样 本间的重叠区域应该较小。

样本集的重叠区域反应了不同类样本的混合程度,样本的重叠区域越小, 那么不同类样本间的分割界限应更加清楚简明,不同类样本应更容易区分。反 之重叠区域越大,不同类的样本混合程度越大,分类界限更模糊,不同类样本 的分类错误率更大。

发明内容

为了更加准确的评价特征子集,本发明在后向迭代特征选择过程中,采用 了基于训练样本上的准确率和重叠度的综合评价指标,用来评价特征的区分能 力。一个具有较好区分能力的特征子集,应该有着较高的准确率和较低的重叠 度。此外,在SVM-RFE的特征选择过程中,SVM基于当前的特征集和训练样 本建模时,对于特征权值的计算,只有SVM所建模型的超平面上的样本会被考 虑,而超平面是基于当前训练样本和特征空间所构建,如果当前特征空间下, 样本重叠度很高,模型的过拟合问题会发生,故在SVM-RFE每次迭代删除特征 的过程中,暂时屏蔽那些重叠度较高的训练样本,有助于减小模型的过拟合问 题。

一种基于SVM-RFE和重叠度的特征选择方法,具体步骤如下:

(1)当前训练样本集合X,迭代删除特征比为t,当前特征集合为F;初始 时,F包含所有特征,FS为空,交叉验证倍数为d,初始准确率c_acc=0.0,初 始重叠度c_oa=0.0;

(2)如果当前特征集合F不为空,对于每一类样本集Xj={x|x∈X,Label(x)=j} 统计该类样本的个数θj,对每个于xi∈Xj,计算Nr(xi),Nr(xi)的计算方式按公式(2):

所述的每个样本的重叠度Nr(xi),其计算方式如下:

a.在当前特征空间F上,对当前训练样本中的每个样本xi,Label(xi)为样本xi所属的类标;

b.在当前特征空间F上,计算r(xi):

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510932825.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top