[发明专利]一种基于SVM-RFE和重叠度的特征选择方法在审
| 申请号: | 201510932825.1 | 申请日: | 2015-12-14 |
| 公开(公告)号: | CN105574363A | 公开(公告)日: | 2016-05-11 |
| 发明(设计)人: | 范蒙;林晓惠;王家天;郝志强;王珏 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06F19/24 | 分类号: | G06F19/24;G06K9/62 |
| 代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 svm rfe 重叠 特征 选择 方法 | ||
技术领域
本发明属于数据挖掘、生物信息学技术的交叉领域,用于从生物信息中筛 选出具有区分能力特征的方法。
背景技术
在数据挖掘领域,特征选择是一种主要的数据分析方法。近年来,数据呈 现出数据量大,数据类型更加多样,数据所含信息价值低等特点,所以如何从 数据中挖掘出有用的特征信息成为越来越受关注的研究领域。
本发明是一种基于支持向量迭代特征删除算法(SupportVector Machine-RecursiveFeatureElimination,SVM-RFE)和样本重叠度的特征选择方 法。SVM-RFE在迭代过程中采用SVM度量特征的重要性,是一种高性能特征 选择方法,广泛应用于基因、蛋白、代谢等生物信息处理。但随着生物分析技 术的发展,基因、蛋白等生物数据维数巨增,如何从中提取富含信息的变量对 疾病的诊断、药物治疗以及营养等研究具有重要意义。SVM-RFE在迭代删除特 征过程中,会删除那些权重偏低的特征,这里的权重代表特征的重要性,特征 权重越大说明特征蕴含的信息越重要。如何确定迭代过程中的哪一次产生的特 征子集作为最优子集,在有的研究中采用迭代删除到预先确定的特征个数作为 最优子集,有的研究中采用准确率作为评价指标来选择最优子集。在SVM-RFE 的后向迭代特征选择过程中,利用准确率作为评价指标来选择最优特征子集, 准确率的高低反应特征集的区分能力的好坏,但准确率也只是从一个角度来反 应特征子集的区分能力好坏。对于特征子集F,训练样本的重叠度反应了不同类 样本的分布,同样可以反应特征子集F的区分能力。
在用SVM构建模型时,如果某个特征子集具有良好的区分能力,那么基于 该特征子集的支持向量构建的超平面应更易于区分不同类样本,并且不同类样 本间的重叠区域应该较小。
样本集的重叠区域反应了不同类样本的混合程度,样本的重叠区域越小, 那么不同类样本间的分割界限应更加清楚简明,不同类样本应更容易区分。反 之重叠区域越大,不同类的样本混合程度越大,分类界限更模糊,不同类样本 的分类错误率更大。
发明内容
为了更加准确的评价特征子集,本发明在后向迭代特征选择过程中,采用 了基于训练样本上的准确率和重叠度的综合评价指标,用来评价特征的区分能 力。一个具有较好区分能力的特征子集,应该有着较高的准确率和较低的重叠 度。此外,在SVM-RFE的特征选择过程中,SVM基于当前的特征集和训练样 本建模时,对于特征权值的计算,只有SVM所建模型的超平面上的样本会被考 虑,而超平面是基于当前训练样本和特征空间所构建,如果当前特征空间下, 样本重叠度很高,模型的过拟合问题会发生,故在SVM-RFE每次迭代删除特征 的过程中,暂时屏蔽那些重叠度较高的训练样本,有助于减小模型的过拟合问 题。
一种基于SVM-RFE和重叠度的特征选择方法,具体步骤如下:
(1)当前训练样本集合X,迭代删除特征比为t,当前特征集合为F;初始 时,F包含所有特征,FS为空,交叉验证倍数为d,初始准确率c_acc=0.0,初 始重叠度c_oa=0.0;
(2)如果当前特征集合F不为空,对于每一类样本集Xj={x|x∈X,Label(x)=j} 统计该类样本的个数θj,对每个于xi∈Xj,计算Nr(xi),Nr(xi)的计算方式按公式(2):
所述的每个样本的重叠度Nr(xi),其计算方式如下:
a.在当前特征空间F上,对当前训练样本中的每个样本xi,Label(xi)为样本xi所属的类标;
b.在当前特征空间F上,计算r(xi):
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510932825.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种指纹识别方法和终端
- 下一篇:医学影像储存方法及储存系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 具有磁电效应的复合薄膜异质结及其制备方法
- 基于集成学习思想的SVM-RFE导联优化方法
- 一种基于FeGa-RFe<sub>2</sub>磁晶各向异性补偿原理设计的新型磁致伸缩材料及其制备方法
- 一种基于SVM‑RFE特征选择的假指纹检测方法
- 一种新型陶瓷电容器材料Ba<sub>4</sub>RFe<sub>0.5</sub>Nb<sub>9.5</sub>O<sub>30</sub>(R=La,Eu,Gd)及其制备方法
- 一种接入网网络架构
- 一种基于SVM-RFE-MRMR算法的阿兹海默症MRI图像分类方法
- 基于车辆相机图像处理来生成和利用道路摩擦估计值的方法和系统
- 一种大轴重货运列车用车轴及其热处理工艺和生产工艺
- 一种电力系统运行方式数据特征两阶段选择方法





