[发明专利]一种基于GPU的并行演化超网络DNA微阵列基因数据分类系统及方法有效
| 申请号: | 201310200205.X | 申请日: | 2013-05-24 |
| 公开(公告)号: | CN103258147A | 公开(公告)日: | 2013-08-21 |
| 发明(设计)人: | 王进;黄萍丽;孙开伟 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06F19/24 | 分类号: | G06F19/24 |
| 代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
| 地址: | 400065 *** | 国省代码: | 重庆;85 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 gpu 并行 演化 网络 dna 阵列 基因 数据 分类 系统 方法 | ||
技术领域
本发明涉及模式识别技术领域,尤其涉及采用一种基于GPU的并行演化超网络模式识别技术实现的DNA微阵列生物信息分类系统。
背景技术
癌症治疗是人类难以攻克的难题。近年大量研究表明,癌症是多因素的疾病,不仅与病人所处的环境和自身体征有关,还是多基因参与的一种渐进积累转化性疾病。肿瘤的产生是由于病变组织的相关的基因发生了基因突变,而突变基因的表达水平和正常基因的表达水平是不一样的。1999年,Golub等人已证明肿瘤亚型之间在基因表达上存在差异。利用基因表达谱可以对肿瘤做出早期诊断,提高肿瘤诊断的精度。DNA微阵列技术是融合了微电子学、生命科学、计算机科学和光电化学等多学科综合交叉形成的一项前沿生物技术,微阵列技术的出现为从分子水平研究癌症的发病机理和临床诊断提供了强有力的手段。随着微阵列技术的发展和完善,将产生海量数据,对于这些数据的快速、合理分析,发现其中所隐藏的信息,是一项重要而艰巨的任务。
由于微阵列数据具有高维度、小样本和高噪音等特点,维度和样本数之间的不平衡致使许多经典的模式识别和机器学习方法不能被直接应用。为了提高DNA微阵列数据分类的准确性及系统的稳定性,首先需要对DNA微阵列数据进行特征选择,找出与分类相关性强的基因,从而减少基因冗余、降低数据维度和噪音干扰;然后再对特征选择后的DNA微阵列数据采用模式识别技术对其进行分类。
目前对基因或样本进行分类的分为两类:监督和非监督算法。监督算法是在样本的先验知识已知的情况下建立模型,对新样本进行判断;非监督算法没有对样本的先验知识,而是根据向量间的相似性(或非相似性)对样本进行聚类。常用于微阵列数据分类的监督算法有:支持向量机、人工神经网络、贝叶斯网络分类器等;非监督算法有:系统聚类、分割聚类、自组织图及模糊聚类等。
超网络是受生物分子启发而产生的一种基于超图模型的认知学习模型,演化超网络最初是作为一种并行联想记忆模型被提出,并通过DNA计算实现(Zhang B T.Hypernetworks:A molecular evolutionary architecture for cognitive learning and memory[J].IEEE Computational Intelligence Magazine,2008,3(3):49-63)。该模型由大量超边组成,超边可以存储训练集数据的部分信息,表达样本的特征和样本类别之间的关联程度,因此非常适用于解决高维数据的模式识别问题。目前超网络已被成功应用于解决各种模式识别问题,如文本分类、急性髓质白血病和急性淋巴细胞白血病分类、手写体数字光学识别数据集分类等。
传统的超网络基于DNA计算实现,超网络以大规模的并行方式演化学习。然而DNA计算对实验环境敏感,难以得到应用。演化学习是超网络的关键环节,其目标是从训练集中寻找包含最佳的特征组合的超边,演化学习的过程直接影响超网络的分类效果。传统超网络的学习方法主要包括两种,一种是梯度下降法,该方法对超边的搜索过度依赖超网络的随机初始化过程。另一种是超边替代法,采用随机搜索的方法搜索超边,搜索效率低下。
近年来,计算机图形处理器GPU(Graphics processing units)绘制流水线的高速度和并行性以及近年来发展起来的可编程功能,使其在通用计算领域的应用有着广阔的前景。作为并行处理器,GPU善于处理大量相似的数据,因为它能将数据划分成成千上万个部分,然后同时进行处理。与CPU相比,GPU具有更高的计算速度和存储器带宽,在那些能很好地映射到其编程模型的应用上,它极具潜力。
发明内容
本发明所要解决的技术问题是:针对传统模式识别方法不能适应高维度、高噪音、小样本的微阵列数据分类,以及传统演化超网络模式识别方法的学习和识别速度慢等问题。本发明提供了一种基于GPU的并行演化超网络DNA微阵列基因数据分类系统。该系统利用超网络分类器对DNA微阵列表达谱数据进行分类,从而实现癌症病变基因的识别,超网络在GPU上以并行方式实现基于遗传算法的演化学习,挖掘出癌症致病基因组合,有效提高了癌症分类精度和分类效率。易于生产一种使用方便、灵活的,具有较高准确率的诊断装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310200205.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





