[发明专利]基因组序列的组装方法、结构变异探测方法和相应的系统有效
申请号: | 201610109249.5 | 申请日: | 2016-02-26 |
公开(公告)号: | CN107133493B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 李雷;王安琪;李峥;王占宇 | 申请(专利权)人: | 中国科学院数学与系统科学研究院 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 11409 北京德恒律治知识产权代理有限公司 | 代理人: | 章社杲;卢军峰 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因组 序列 组装 方法 结构 变异 探测 相应 系统 | ||
本发明公开了一种基因组序列的组装方法、和相应的结构变异探测方法,该组装方法包括:通过设计序列映射的唯一性准则,将被测基因组的测序序列向参考基因组进行映射,并对映射结果进行恰当的切割,形成组装叠阵集。然后根据单映序列在组装叠阵集上的坐标和同伴关系估计基因组的构架,并根据组装叠阵集上单映序列的坐标和它们的同伴序列将叠阵向外延拓。延拓对各个叠阵以并行方式计算执行。延拓后的相邻叠阵一致序列如果存在重叠就将它们连接。这样所得到的当前组装基因组作为下一轮的参考基因组,通过调整序列映射的唯一性准则,重复以上拼接步骤,改进基因组的组装结果。所测基因组相对于参考基因组的结构变异,在拼接的过程中同时被探测出来。
技术领域
本发明涉及生物信息技术领域,具体来说,涉及一种基因组序列的组装方法、结构变异探测方法和相应的系统。
背景技术
基因组测序是开展分子生物学研究的重要技术。通过对一个物种的基因组进行测序,研究人员可以获得这个物种的基因组碱基序列,它作为这个物种的遗传序列模版,为基因、转录、调控、修饰等层面进行定性或定量的研究,探索生命现象背后的分子机制提供了重要参照。完成测序后,通过将被测物种的基因组与其他物种的基因组进行比较,研究人员可以发现它们在基因组水平上的差异,这为揭示遗传变异、自然或人工选择的机制提供了信息,从而为优质基因的筛选、物种的改良培育提供了指导。此外,基因组测序还可以帮助寻找多倍体物种的杂合位点或杂合区段,是研究杂合性与生命现象的关系的重要基础。
第二代测序技术是目前应用的最广泛的测序技术。和第一代测序技术相比,它具有通量高、成本低的特点。在第二代测序技术发展的最初阶段,所测到的序列长度比较短(碱基对数目通常为30-40bp)而且碱基辨识的质量不够高;随着技术的不断改进,目前能够测量的序列长度大幅度增加(超过100bp),同时碱基辨识质量也有了很大的改进。第二代测序的一个重要的特点是,它可以从两端对一个很长的片段进行测序,得到这个长片段两端的碱基序列,因此使用第二代测序技术可以获得高通量的双末端测序序列。
将测序序列组装成基因组是计算生物领域的基本问题。因为测序仪所能测量的序列长度远小于基因组长度,所以在测序后需要对所有测序序列进行组装,推断它们的相对位置,还原出被测的基因组。组装基因组面临着以下几个挑战:(1)第二代测序技术的数据具有很高的通量,大量的数据会增加组装的时间和计算设备上被占用的存储空间;(2)基因组上有很多相似度很高、或是重复出现的区段,它们的存在给推测测序序列的相对位置增加了很大的不确定性;(3)对于杂合度高的基因组,需要组装出不同的倍型,同时还要确定不同倍型的位置关系,找到杂合区域。
现有的基因组组装方法在原理上主要分为两类。一类是基于De Bruijn图的方法,该方法的主要操作是:对于每一个测序序列,每隔一个碱基切割出一个特定长度的子序列(通常称为k-mer,k表示子序列的长度);利用所有被切割出来的子序列构造De Bruijn图;进行一定的纠错操作后,在图上寻找路径,每条路径被推断为被测基因组上的片段。这种方法对杂合度低,重复度低的基因组组装效果会比较好;而对于杂合度高,重复度高的基因组不是很理想。此外,基于De Bruijn图的方法不容易给出测序序列之间的叠落关系,不利于进行统计评估;同时,所切割出的子序列长度明显短于测序序列,会降低特异性,导致在图上寻找路径时出现错误。另一类方法是基于测序序列叠落关系的,该方法对每两条序列进行比对,根据全部比对结果推断序列的叠落关系。这类方法是以测序序列为单位的,而不是k-mer,容易从序列水平进行统计评估。然而,这一类方法需要对每两条测序序列进行比对,时间复杂度高,对测序通量小的第一代测序技术可以应用,但不适用于高通量的第二代测序技术。同时,对于重复度高的基因组,这类方法的效果也不一定理想,会出现拷贝数减少;对于杂合度比较高的区域,当基因组上同一位置的两个倍型差异比较大时,来自两个倍型的测序序列不容易被整合到一个叠阵中,导致倍型的丢失。
针对相关技术中的上述问题,目前尚未提出有效的解决方案。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院数学与系统科学研究院,未经中国科学院数学与系统科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610109249.5/2.html,转载请声明来源钻瓜专利网。