[发明专利]一种基于近邻传播聚类的集成分类器构建方法在审
| 申请号: | 201610043784.5 | 申请日: | 2016-01-22 |
| 公开(公告)号: | CN105550715A | 公开(公告)日: | 2016-05-04 |
| 发明(设计)人: | 孟军;郝涵 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 大连星海专利事务所 21208 | 代理人: | 徐雪莲 |
| 地址: | 116024 *** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 近邻 传播 集成 分类 构建 方法 | ||
技术领域
本发明涉及生物信息学和数据挖掘领域。尤其是针对于基因表达数据的一 种基于近邻传播聚类的集成分类器构建方法。
背景技术
癌症(Cancer),亦称恶性肿瘤(Malignantneoplasm),是由控制细胞生长 的增殖机制失常而引起的疾病,于2011年,超过心脏病,成为全球第一大死亡 原因,而且年新增病例每年都在增加。联合国2014年2月发布的《WorldCancer Report2014》报告中指出,2012年的新增癌症病例达1400万人,到2030年, 新增癌症病例还将增加50%,达到每年2160万人。中国的新增癌症病例前景堪 忧。报告中指出2012年确诊的新增癌症病例有近一半出现在亚洲,其中大部分 在中国,而整个欧洲的新增病例才接近1/4,美洲约占1/5,非洲和中东则刚刚 超过8%。
基因芯片技术为癌症诊断研究提供了高效、客观的研究方法。基因芯片 (GeneChip)技术,又称DNA微阵列(DNAMicroarray)技术,是20世纪90 年代生物学领域的一项重大技术突破,采用cDNA或寡核苷酸片段作为探针, 利用4种核苷酸之间互补配对的特性,能够同时快速地检测待测样本细胞或组 织中mRNA丰度,进而获得待测样本的基因表达信息。这使研究者们能够同时 获得研究对象在任意条件、任意时间下成千上万基因的表达模式,从基因分子 层面上研究癌症的产生与发展,为了解癌症、预防癌症、癌症诊断以及遴选抗 癌药物等提供了更加快捷、准确的方法手段。自1999年Golub等在Science杂 志上发表题为《MolecularClassificationofCancer:ClassDiscoveryandClass PredictionbyGeneExpressionMonitoring》的文章以来,采用基因芯片技术研究癌 症诊断问题引起了研究者们的极大兴趣,并逐渐发展成为了生物信息学领域的 研究热点之一。
基于基因芯片技术的癌症诊断研究可以看成是对癌症相关的基因表达数据的分类分析。近些年来,很多分类方法被成功应用到对基因表达数据分类当中,如k-近邻(KNearestNeighbors,KNN)、支持向量机(SupportVectorMachine,SVM)、贝叶斯(Bayes,NB)、决策树(DecisionTree,DT)以及Fisher线性判别分析(LinearDiscriminantAnalysis,LDA)等。然而,对同一数据集不同分类器的分类能力不尽相同;而对同一个分类器不同数据集的分类性能也并非都很好。于是,分类性能稳定、鲁棒性更好的集成学习(EnsembleLearning)方法成为基因表达数据分类的重要研究内容。
集成学习是近20年来机器学习研究的热点内容,通过采用多个分类器对同 一个问题进行学习,并把多个学习结果按照某一方式融合成一个学习结果。 Dietterich分别从统计、计算和表示三个方面对集成分类方法有效的原因进行了 分析,并指出集成学习有效的充要条件是个体分类的精度高(所有个体分类器 错误率都应当低于0.5)而且是相互独立的(集成分类器中每个分类器之间错误 独立的)。与个体分类器相比,集成学习能够显著地提高分类模型的泛化能力和 预测准确性,因而被广泛应用到数据挖掘的各个研究领域,尤其是基因表达数 据分析领域。
采用集成学习方法对癌症相关的基因表达数据进行研究具有以下意义:
(1)提高癌症诊断准确性。在癌症诊断研究中,如何对测试样本给予一个 精确的判断是一个重要的目标。采用单一的分类器获得较高的分类精度并非一 件容易的事情,而且单个分类器的学习能力是有局限的。为获得更好的分类效 果,集成学习方法把多个不同预测结果有效结合起来,其预测精度通常比只使 用一个分类器精度要高。
(2)增强预测模型的稳定性。单分类器的预测性能通常不太稳定,容易受 训练数据集和所选分类算法的影响,即不同类型的数据集、或数据集的扰动、 或选择不同的分类算法等都能够影响分类模型的训练预测结果。采用集成学习 的方法,在一定程度上能够降低诊断模型受这些因素的影响,在更多的应用当 中获得稳定的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610043784.5/2.html,转载请声明来源钻瓜专利网。





