[发明专利]基于优化解集合的个体单体型重建方法无效
申请号: | 200810030834.1 | 申请日: | 2008-03-18 |
公开(公告)号: | CN101256602A | 公开(公告)日: | 2008-09-03 |
发明(设计)人: | 王建新;吴璟莉 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;C12Q1/68 |
代理公司: | 中南大学专利中心 | 代理人: | 龚灿凡 |
地址: | 410083*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 优化 集合 个体 体型 重建 方法 | ||
技术领域
本发明涉及生物信息学,特别涉及个体单体型的重建。
背景技术
人类基因组测序工作完成之后,遗传差异性研究已成为基因组的热点研究之一。众所周知,人类几乎有99.9%的基因是相同的,因此我们所呈现出的外部差异性仅仅是由于0.1%的基因差异引起的。在各种遗传变异之中,单核苷酸多态性(single nucleotide polymorphisms,SNPs)是最显著的一种形式,它是人类染色体某个位点上的碱基变化。研究SNP在阐明疾病易感性机制、设计个体化治疗方案和药物研制等方面都具有重要意义和实际应用价值。
然而,检测人类染色体上所有一千万个常见SNPs的费用极其昂贵,所幸的是,由于连锁不平衡现象以及缺乏重组事件,一些相邻的多态位点趋于在一起共同遗传,这些变异连锁的区域即为单体型(haplotype),它定义为一条染色单体上某一区域的一组相关联的SNP位点。最近的研究表明,在与疾病相关的研究中,单体型数据通常比单个SNP携带更多的信息,但在当前的实验技术下,直接通过生物学实验手段来测定单体型既费钱又费时间,因此利用计算机技术来确定个体的单体型有极其重要的现实意义。
个体单体型重建问题可描述如下:给定一组来自某对同源染色体的由DNA测序方法得到的DNA片断,若只关注SNP位点,这些DNA片断即为SNP片断。单体型重建问题是要根据片断上SNP位点的状态信息将这些片断分成两个集合,每个集合中的片断组装成一条单体型。由于在DNA测序过程中会产生测序错误,而且当片断中存在错误时,无法准确地对片断进行分组。因此,在2002年,Lippert等提出了最少错误更正(the minimum error correction,MEC)模型,它要求通过更正最少的片断错误来重建单体型,目前求解该模型的方法主要有:
(1)王瑞省等提出的基于分支定界思想的方法,但由于MEC模型是NP难的,该方法无法求解大规模问题。
(2)王瑞省等提出两种动态聚类方法(文中称为DC1和DC2)以及一种基于遗传算法的启发式方法(文中称为GA)。
这些方法均致力于得到一对重建率最高的单体型数据。但是由于MEC模型及方法本身的原因,最优结果会在问题求解过程中被遗失,从而使结果单体型重建率并不高。
发明内容
为了解决上述基于MEC模型的个体单体型重建方法存在的技术问题,本发明提供了一种基于优化解集合求解MEC模型的重建方法。该方法能够生成一个小规模的优化解集合,且基于该优化解集,能够获得较以往方法更高重建率的单体型。
本发明基于MEC模型解决个体单体型重建问题,包括以下步骤:预处理SNP矩阵,得到只含杂合位点的SNP矩阵。通过粒子群优化策略得到一个小规模的优化解集合,即只具有杂合位点的单体型对集合。最后的扩展阶段将预处理阶段删掉的SNPs重新加上,得到最终的单体型对集合。
上述的基于优化解集合的个体单体型重建方法,粒子群优化策略采用二进制串X(x1,x2,...,xn)(xi∈{0,1})和V(v1,v2,...,vn)(vi∈{0,1})来分别表示一个粒子的位置和速度,粒子位置代表一条只含杂合位点的单体型。
上述的基于优化解集合的个体单体型重建方法,某个粒子位置X对应的错误更正数E(X)的计算方式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810030834.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复杂产品变异设计中的结构移植方法
- 下一篇:一种数据广播业务注销的方法及系统
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用