[发明专利]一种基于mvAUC的互补差异表达基因选取方法有效
申请号: | 202110147526.2 | 申请日: | 2021-02-03 |
公开(公告)号: | CN112802555B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 卫金茂;苏月;杜科宇;刘健 | 申请(专利权)人: | 南开大学 |
主分类号: | G16B40/20 | 分类号: | G16B40/20;G16B25/00 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 王颖 |
地址: | 300350 天津市津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mvauc 互补 差异 表达 基因 选取 方法 | ||
本发明提出一种基于多变量AUC的特征选择方法,从癌症的差异表达数据中选择最互补的基因子集,实现全局分类性能最大化。本发明首先基于特征的可能误分类集提出一种AUC计算的新角度;然后对于一个特征集,确定其共同可能误分类集并计算每个特征组合后的新AUC;一个特征的新AUC与原始AUC的差值展示了组合后特征集中的其他特征对该特征分类能力的互补作用。最后基于特征组合后的新AUC计算mvAUC,并增量式的选择使当前mvAUC最大化的候选特征加入被选特征子集。本发明方法具有可以直接评估被选特征子集的全局类辨别能力的优点,不需要成对地计算候选特征和每个被选特征之间的冗余信息。
技术领域
本发明属于数据挖掘技术领域,特别是涉及一种基于mvAUC的互补差异表达基因选取方法。
背景技术
在生物医学领域,随着新一代测序技术(NGS)的快速发展与不断成熟,测序成本大大降低,癌症基因表达等数据快速积累,基于NGS大数据的分析与应用成长很快。基因表达数据集通常包含成千上万甚至数十万的基因,和相对少量的数百到上千个样本。在这成千上万的基因中,仅仅只有少部分基因与癌症的发生有关,大量不相关的冗余基因的存在会严重影响到数据的分析,并导致偏差。因此识别出对癌症分类最有贡献的基因显得愈发重要。这一识别过程被称为基因选择,其关键是建立一种评价标准来选择出最具辨别能力的基因子集,从而达到降低空间维度以及提高分类精度和发现潜在目标基因的目的。
在机器学习和数据挖掘领域,基因选择被称为特征选择,也即基因的筛选,可以采用机器学习中的特征选择技术来实现。机器学习中的特征选取方法有很多种,许多特征选择方法是通过度量特征与类的相关信息,来选择对类的辨别能力最强的特征子集。如FAST和Relief等特征选择方法,评估每一个候选特征与类的相关性,将相关性高的特征加入到被选特征子集。但该类方法没有考虑特征间的冗余,可能会导致所选特征高度相关,因此导致多个强辨别能力的特征在组合后的联合分类性能不一定会优于弱辨别能力的特征的组合。针对这一问题,大量研究开始着眼于降低特征间冗余。如ARCO、mRMR和CIFE等方法,通过度量特征间的相关性来评估特征冗余,选择与类相关性高而彼此间相关性低的特征加入被选特征子集。然而,整体上为分类提供大量信息来实现全局类辨别能力最大化的特征并不一定是不相关的,更可能是互补的特征。且无论是衡量类相关信息还是冗余信息,这些方法都没有考虑在加入新特征时,被选特征子集为识别目标类而保留的信息。对于两个与类的相关性相同的特征,它们对被选特征子集的影响可能是完全不同的。此外,出于实际计算可行性的考虑,目前现有的方法均是以成对的方式来计算类相关信息和特征间的相关性。这可能会过高地估计特征对类的识别能力以及特征间的冗余,忽略被选特征子集整体上的相互合作和对全局分类性能的作用。本发明正是考虑到以上问题,提出一种基于mvAUC的互补差异表达基因选取方法。
发明内容
本发明提供一种基于mvAUC的互补差异表达基因选取方法,从癌症的差异表达数据中选择最互补的基因子集,实现全局分类性能最大化。该方法具有可以直接评估被选特征子集的全局辨别能力的优点,不需要成对地计算候选特征和每个被选特征之间的冗余信息。
为实现上述目的,本发明提供了如下方案:
一种基于mvAUC的互补差异表达基因选取方法,包括以下步骤:
对每个基因特征,计算其有序的可能误分类集OPMS;
对于一个特征集,确定其共同的可能误分类集PMS并计算每个特征基于可能误分类集的新AUC;
基于基因特征组合后的新AUC计算mvAUC,并增量式的选择使当前mvAUC最大化的候选特征加入被选特征子集。
优选地,所述AUC定义为ROC曲线下方的面积,公式为:
其中,θ为给定的分类阈值,F(θ)表示被错误地分类为正类的负实例,P(θ)表示被正确地分类为正类的正实例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110147526.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种食用菌纵向切片机
- 下一篇:一种植物内生菌富集分离方法