[发明专利]一种基于De Bruijn图的并行基因拼接方法有效

申请号：	201310176240.2	申请日：	2013-05-14
公开（公告）号：	CN103258145A	公开（公告）日：	2013-08-21
发明（设计）人：	曾理;成杰峰;孟金涛;涂志兵;冯圣中	申请（专利权）人：	中国科学院深圳先进技术研究院
主分类号：	G06F19/18	分类号：	G06F19/18
代理公司：	深圳市科进知识产权代理事务所(普通合伙) 44316	代理人：	宋鹰武
地址：	518055 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 de bruijn 并行基因拼接方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及基因测序技术领域，特别是涉及一种基于De Bruijn图的并行基因拼接方法。

背景技术

基因测序是现代生物信息领域中最重要的问题之一。随着现代生物的发展，基因测序已经越来越广泛地应用于社会的各个领域中，比如基因诊断、基因治疗、药物设计等。基因测序中很重要的一步就是基因拼接。

随着基因测序的广泛应用，一方面，它需要对大量大基因组的生物进行测序。在对大基因组进行测序时，其数据量非常大；另一方面，这也要求基因拼接的算法越来越快。

基因序列拼接算法主要有两类。第一类是基于overlap图的算法。在overlap图中，每一个短序列read（DNA分子被随机打断成很多小片段，每个小片段被称为read）都被当作一个顶点，如果两个read之间存在重叠且重叠的长度超过一定阈值，那么就有一条有向边相连。因此，序列拼接问题转换为在overlap图中寻找一条经过每个顶点的Hamilton路径，这是NP-Hard问题。第二类是基于De Bruijn图的算法。在De Bruijn图中，每一个read被切分成长度为k的小片段，称为k-mer。每一个k-mer为一个顶点。如果存在read，使两个k-mers相邻且重叠k-1个字符，那么它们之间存在一条有向边。这样每个read被映射成图中的一条路径。因此，序列拼接问题变成了在De Bruijn图中寻找一条包含所有read的路径。测序仪在测序时会引入错误，下一代高通量测序仪错误率在1%左右，同时原始序列中存在不同长度的重复片段，这两个问题使得序列拼接问题更加复杂。

早期基于Sanger测序法（自动化桑格测序法）得到的序列片段，长度可以达到1000BP(碱基对)。基于overlap图的拼接算法比较有效，但测序成本比较高。比如通过第一代测序技术完成的人类基因组计划，花费了30亿美元，耗时三年。当第二代测序技术（又称为下一代测序技术）如Solexa、454、SOLID技术出现后，基因测序才开始真正进入大规模应用。第二代测序技术有三个显著的特点，高通量，短序列，高覆盖。高通量，是测序仪一次可以同时测定大量的read序列，极大降低了测序成本。短序列，是序列长度一般在25-500base之间。高覆盖，是因为序列短，为了保证信息的完整性，需要极大的提高DNA的覆盖度（即coverage）。但随着覆盖度的提高，read数量成倍的增加，如果继续采用基于overlap图的算法，图的规模也会成倍的增长。如果采用基于De Bruijn图的算法，图的规模与DNA长度呈线性关系。对同一基因组而言，其规模几乎不变。因此，面对第二代基因测序技术的大规模应用，De Bruijn图的基因拼接算法有很大的优势。其相关的算法有Euler、ALLPATHS、Velvet、IDBA、SOAPdenovo、分布式的ABySS和分布式的YAGA。其中Euler、ALLPATHS、Velvet、IDBA算法是串行算法，适用于小数据集的拼接，SOAPdenovo是基于SMP大型机的多线程拼接算法，可以拼接大型数据集如人类基因组，但最快拼接时间也需要40多个小时。

在基于De Bruijn图的拼接过程中，最为消耗内存的步骤是构建De Bruijn图，尤其是对大基因组生物，其构造的De Bruijn图非常大，现有的单机串行的拼接算法，无法完成构图。同时，对De Bruijn图的化简需要占用最多的处理时间。现有的并行拼接算法，其拼接速度仍然无法达到大规模应用的要求，主要的难点就是化简过程的并行度不高。

综上所述，现有技术中，传统单机串行的基因拼接算法无法对大基因组的海量数据进行拼接，而现行的并行基因拼接算法不能快速对大基因组进行拼接。

发明内容

本发明提供一种基于De Bruijn图的并行基因拼接方法，旨在解决现有技术中传统单机串行的基因拼接算法无法对大基因组的海量数据进行拼接，现行的并行基因拼接算法不能快速对大基因组进行拼接的技术问题。

本发明采用如下技术方案：

一种基于De Bruijn图的并行基因拼接方法，包括：

S1、并行构建分布式De Bruijn图；

S2、剔除错误路径；

S3、基于深度图遍历方法对De Bruijn图进行化简；

S4、合并contig，生成scaffold；

S5、输出scaffold。

优选地，所述步骤S1具体包括：

S11、所有的处理器并行读取原始的短序列文件，每个处理器读取短序列文件的一部分；