[发明专利]一种基于参考基因组和从头组装相结合的二代测序数据组装方法在审
申请号: | 201510706400.9 | 申请日: | 2015-10-27 |
公开(公告)号: | CN105303068A | 公开(公告)日: | 2016-02-03 |
发明(设计)人: | 陈玲玲;孙帅;焦文标;徐锡文;宋佳明 | 申请(专利权)人: | 华中农业大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 肖平安 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 参考 基因组 从头 组装 相结合 二代 序数 方法 | ||
技术领域
本发明涉及存在参考基因组的情况下对第二代测序读段进行全基因组组装的方法。
背景技术
目前,根据有无参考基因组来区分,二代测序数据的组装策略主要两种,一种是基因组从头组装,另一种是基于参考基因组的组装。但这两者各有优缺点。
基因组从头组装是在不依赖参考基因组或其他基因组的情况下,完全基于测序读段进行的组装。目前,对于序列组装主要有三种算法。第一种是贪婪算法。这种算法只要序列间有重复(一致)序列,就寻找最大重复区,合并更多序列。这种算法简单,可以达到局部最优的结果,但难以实现全局最优。在实际中,由于准确率比较低,使用的这种算法的组装软件也比较少。常用的软件有SSAKE,TIGRAssembler等。第二种是OLC(Overlap-Layout-Consensus)算法。这种算法将小序列间的关系以图的形式呈现,每个节点代表一个序列片段,如果两个序列片段间有重叠就用重叠区来连接两个节点。当测序的读段较长时,该算法能得到很好的结果。在使用Sanger读段来组装时,该算法被普遍使用。常用的软件有CAP3,Phrap,Newbler等。第三种是基于deBruijin图的算法。这种算法不直接使用读段来组装基因组。首先,将读段分割成长度相同的kmer片段,相邻kmer只差一个碱基。然后构建deBruijin图,以kmer为图的节点,以相邻kmer的连接为边。最后,寻找可以包含deBruijin图中所有读段所对应的路径。在实际组装过程中,一般要有去掉图中短的分支、低覆盖度的边、合并泡等操作,以获得更加准确的简化图。这种算法不需要读段之间的两两比对,并且使用的内存与测序覆盖深度关系不大,是一个线性时间问题,具有更低的时间复杂度。现在,使用二代测序数据进行的基因组组装大部分都是使用这种算法。常用的软件有:AllPath-LG,SOAPdenovo,Velvet等。
基因组从头组装的策略不依赖参考基因组的优点是可以更好地组装出一些物种特有的基因组片段,并且已开发出许多工具和软件,这提高了计算的自动化,降低了对科研人员对计算机技术的要求,在科学研究中应用广泛,如大熊猫,甜橙等物种的基因组组装。但是,它也有明显的缺点,在基因组的复杂度高的区域,利用从头组装的策略很难组装出来。因而,对于复杂度高、重复序列高的大基因组而言,这种策略在基因组组装的连续性上表现较差,即N50或N90很小;在准确性上的表现也较差,即在重叠群(contig)和支架(scaffolds)存在很多的错误连接。
基于参考基因组的组装,这是一种比较组装的方法,通过比较和参考已知或类似的基因组来实现短序列的组装。基于参考基因组的方法可以用于组装重叠群阶段或组装支架阶段。当参考基因组用于组装重叠群阶段时,基于参考基因组组装的方法大致上有两种。一种是基于比对构建重叠群的方法,如AMOScmp,samtools,LOCAS。另一种是基于参考基因组来划分更小的区域,在局部进行组装从而降低组装的复杂度,提高组装质量。这种方法没有现成的软件,需要设计更适合自己研究的流程,但大致思想都是“化整为零”的局部组装。这种方法已应用到拟南芥的研究中。当参考基因组用在组装支架阶段时,一般是基于重叠群在参考基因组上的比对的位置信息来构建支架,有时需要额外信息的支持,如双末端读段,或物理图谱等。使用这种方法的软件有scaffol_builder,RACA,nucmer的比对排序算法等。
基于参考基因组组装的策略的优点是可以降低组装的复杂度,对计算资源的消耗较低。同时可以提高基因组组装的正确率和连续性。但其缺陷也非常明显。该方法受参考基因组质量的影响较大。当参考基因组质量较高时,利用参考基因组组装的质量也会较高;当参考基因组质量较低时,利用参考基因组组装的质量也偏低。同时这种策略很难将该物种一些特异性的片段组装出来,这会导致组装的完整性大打折扣。
在本研究中,我们将基于参考基因组组装和基因组从头组装这两种策略结合起来,来克服这两者的劣势,同时充分利用这两者的优势。具体而言,我们首先利用基于参考基因组的策略获得一个连续性和准确率较好的基因组序列。然后,利用从头组装的策略获得一个从头组装的基因组,该基因组对物种特异性序列的组装方面表现较好。最后,我们将这两个基因组整合到一起,产生一个在准确率、连续性和完整性都较好的基因组。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中农业大学,未经华中农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510706400.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用