[发明专利]一种基于近邻传播聚类的集成分类器构建方法在审

申请号：	201610043784.5	申请日：	2016-01-22
公开（公告）号：	CN105550715A	公开（公告）日：	2016-05-04
发明（设计）人：	孟军;郝涵	申请（专利权）人：	大连理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	大连星海专利事务所 21208	代理人：	徐雪莲
地址：	116024 ***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于近邻传播集成分类构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及生物信息学和数据挖掘领域。尤其是针对于基因表达数据的一种基于近邻传播聚类的集成分类器构建方法。

背景技术

癌症(Cancer)，亦称恶性肿瘤(Malignantneoplasm)，是由控制细胞生长的增殖机制失常而引起的疾病，于2011年，超过心脏病，成为全球第一大死亡原因，而且年新增病例每年都在增加。联合国2014年2月发布的《WorldCancer Report2014》报告中指出，2012年的新增癌症病例达1400万人，到2030年，新增癌症病例还将增加50％，达到每年2160万人。中国的新增癌症病例前景堪忧。报告中指出2012年确诊的新增癌症病例有近一半出现在亚洲，其中大部分在中国，而整个欧洲的新增病例才接近1/4，美洲约占1/5，非洲和中东则刚刚超过8％。

基因芯片技术为癌症诊断研究提供了高效、客观的研究方法。基因芯片 (GeneChip)技术，又称DNA微阵列(DNAMicroarray)技术，是20世纪90 年代生物学领域的一项重大技术突破，采用cDNA或寡核苷酸片段作为探针，利用4种核苷酸之间互补配对的特性，能够同时快速地检测待测样本细胞或组织中mRNA丰度，进而获得待测样本的基因表达信息。这使研究者们能够同时获得研究对象在任意条件、任意时间下成千上万基因的表达模式，从基因分子层面上研究癌症的产生与发展，为了解癌症、预防癌症、癌症诊断以及遴选抗癌药物等提供了更加快捷、准确的方法手段。自1999年Golub等在Science杂志上发表题为《MolecularClassificationofCancer：ClassDiscoveryandClass PredictionbyGeneExpressionMonitoring》的文章以来，采用基因芯片技术研究癌症诊断问题引起了研究者们的极大兴趣，并逐渐发展成为了生物信息学领域的研究热点之一。

基于基因芯片技术的癌症诊断研究可以看成是对癌症相关的基因表达数据的分类分析。近些年来，很多分类方法被成功应用到对基因表达数据分类当中，如k-近邻(KNearestNeighbors,KNN)、支持向量机(SupportVectorMachine,SVM)、贝叶斯(Bayes,NB)、决策树(DecisionTree,DT)以及Fisher线性判别分析(LinearDiscriminantAnalysis,LDA)等。然而，对同一数据集不同分类器的分类能力不尽相同；而对同一个分类器不同数据集的分类性能也并非都很好。于是，分类性能稳定、鲁棒性更好的集成学习(EnsembleLearning)方法成为基因表达数据分类的重要研究内容。

集成学习是近20年来机器学习研究的热点内容，通过采用多个分类器对同一个问题进行学习，并把多个学习结果按照某一方式融合成一个学习结果。 Dietterich分别从统计、计算和表示三个方面对集成分类方法有效的原因进行了分析，并指出集成学习有效的充要条件是个体分类的精度高(所有个体分类器错误率都应当低于0.5)而且是相互独立的(集成分类器中每个分类器之间错误独立的)。与个体分类器相比，集成学习能够显著地提高分类模型的泛化能力和预测准确性，因而被广泛应用到数据挖掘的各个研究领域，尤其是基因表达数据分析领域。

采用集成学习方法对癌症相关的基因表达数据进行研究具有以下意义：

(1)提高癌症诊断准确性。在癌症诊断研究中，如何对测试样本给予一个精确的判断是一个重要的目标。采用单一的分类器获得较高的分类精度并非一件容易的事情，而且单个分类器的学习能力是有局限的。为获得更好的分类效果，集成学习方法把多个不同预测结果有效结合起来，其预测精度通常比只使用一个分类器精度要高。

(2)增强预测模型的稳定性。单分类器的预测性能通常不太稳定，容易受训练数据集和所选分类算法的影响，即不同类型的数据集、或数据集的扰动、或选择不同的分类算法等都能够影响分类模型的训练预测结果。采用集成学习的方法，在一定程度上能够降低诊断模型受这些因素的影响，在更多的应用当中获得稳定的预测结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610043784.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种具有无线WIFI功能的移动储存电子设备
下一篇：一种基于改进自训练学习的脑电信号识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于近邻传播聚类的集成分类器构建方法在审

专利文献下载