[发明专利]基于随机化贪心特征选择的集成分类方法有效
申请号: | 201710209168.7 | 申请日: | 2017-04-01 |
公开(公告)号: | CN106991296B | 公开(公告)日: | 2019-12-27 |
发明(设计)人: | 孟军;张晶 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20 |
代理公司: | 21200 大连理工大学专利中心 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 随机化 贪心 特征 选择 集成 分类 方法 | ||
一种基于随机化贪心特征选择的集成分类方法,属于生物信息学和数据挖掘领域,对植物胁迫响应相关的基因表达数据进行分类。包括如下步骤:(1)在传统的贪心算法中引入随机性进行特征选择;(2)使用在复杂网络中作为社区发现评价指标的加权本地模块化函数作为随机化贪心算法的启发信息;(3)在每个特征子集上使用支持向量机算法训练基分类器;(4)对基分类器采用近邻传播聚类算法进行聚簇划分;(5)使用聚簇中作为类代表点的基分类器进行集成,采用简单多数投票法形成集成分类模型。本发明能够根据基因表达数据识别植物样本是否受到胁迫,极大的提高了对微阵列数据的分类精确度,而且算法的泛化能力强,具有非常好的稳定性。
技术领域
本发明属于生物信息学和数据挖掘领域,特别是涉及对基因表达数据的重要基因的选择和选择性集成分类模型的构建。
背景技术
高通量测序技术的发展,为研究者提供了海量的基因表达数据,从中提取出有价值的信息已经成为生物信息学的研究热点。植物在生长过程中经常会受到病虫害和环境因素的影响,如何预测并做好防治工作,对林业、农牧业、环境保护等多方面的发展将起到非常重要的作用。由于基因表达数据具有“高维度”、“小样本”和“高冗余”的特点,采用传统的单分类算法会出现分类稳定性差和准确率偏低等问题,因而对此类数据的分析需要处理能力较强的分类模型。
由于基因表达数据的高维属性,需要选择出重要的特征用于分类。特征选择方法可以划分为三类:过滤式,包裹式和嵌入式。在对基因表达数据的分析中简单、高效的过滤式特征选择方法被广泛使用。过滤式特征选择算法分为特征排序和特征子集选择两种。目前大多数的排序方法忽略了特征之间的相互依赖关系,只是选择具有较强分类能力的个体特征。特征子集选择方法能够选择出具有较强分类能力的特征子集,并且考虑到特征集合整体的分类性能。因为找到最优特征子集是一类NP困难问题,所以通常采用贪心算法来进行近似最优的特征子集的选取。探索的过程依据能够评价特征子集分类性能的启发信息来进行。然而,传统的贪心算法只是对特征空间中很小的区域进行探索,因此,只是产生局部最优解。为了解决上述问题,随机性被引入到了贪心算法中。
论文名:Introducing randomness into greedy ensemble pruningalgorithms,期刊:Applied Intelligence,年份:2015年。Dai等人对传统的基于贪心算法的集成剪枝方法进行了改进,通过引入随机性来扩大贪心算法的搜索空间。并通过多次执行该基分类器选择算法产生多组不同的基分类器集合,最后选取一组分类性能最优的基分类器产生最后的集成分类模型。
传统的特征评价指标有互信息、皮尔逊相关性和秩和检测等。论文名:FeatureSubset Selection for Cancer Classification Using Weight Local Modularity,期刊:Scientific Reports,年份:2016年。Zhao等人提出了一种基于复杂网络中社区发现评价指标的特征选择算法应用于对癌症数据的分类中。这种特征子集选择方法利用了加权本地模块化指标来评价特征子集整体的对于类别的区分能力而不是像目前大多数评价指标只是对单个特征的分类能力进行评价。
在基分类器数量较多的情况下,会存在一些冗余的分类器,导致整体的差异性较差。为了提高集成分类的性能,对基分类器进行选择是十分必要的。选择性集成方法可以大致分为四类:迭代优化法、排名法、分簇法和模式挖掘法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710209168.7/2.html,转载请声明来源钻瓜专利网。