[发明专利]一种基于长读数和contig分类的scaffolding方法在审
申请号: | 201810642753.0 | 申请日: | 2018-06-21 |
公开(公告)号: | CN108830047A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 罗军伟;王俊峰;张波;张霄宏;贾利琴 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06F19/26 | 分类号: | G06F19/26;G06F19/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 简单路径 非重复 比对 重复 集合 比对结果 线性规划 真实数据 分类 构建 冲突 表现 | ||
本发明公开了一种基于长读数和contig分类的scaffolding方法。本方法首先把长读数比对到contig集合上,根据比对结果生成局部scaffold集合。一条局部scaffold是由比对到同一条长读数的contig构成。基于每条contig在局部scaffold中出现的位置信息,把所有的contig分成两类,一类是重复contig,另一类是非重复contig。构建只包含非重复contig的scaffold图,图中每一个节点代表一个非重复contig。接着利用线性规划方法消除scaffold图中的方向和顺序冲突,并使scaffold图中只包含简单路径,其中每条简单路径对应一条scaffold。然后把重复contig插入到scaffold中,形成最终的scaffolding结果。本发明简单易用,在不同的真实数据上表现出良好的scaffolding结果,较其它scaffolding方法具有更高的准确性和连续性。
技术领域
本发明涉及生物信息学的序列组装领域,特别是一种基于长读数和contig分类的scaffolding方法。
背景技术
基因组一般是指全部编码和非编码的脱氧核糖核酸(DNA)序列,它是由四种碱基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)组成的序列,即基因组序 列是一个字符串,这个字符串中只包含四个字符A,T,G,C。在实际基因组序列中也 包含另一个字符N,代表该位置的碱基无法确定。基因组DNA序列包含了遗传和调控 信息,引导生物发育与生命机能运作。在基础生物学研究和众多应用领域中,如诊断、 生物技术、法医生物学、生物系统学中,完整和正确的基因组DNA序列已成为不可缺 少的知识。通过基因组测序,可以获得大量基因组序列上碱基序列片段(读数或read)。 序列组装是通过这些得到的序列片段还原整个基因组DNA序列的方法。而由于重复区、 测序错误以及测序不均衡等问题,序列组装方法往往先生成一些比较独立和零散的序列 片段,即contig,这些contig可能分布在基因组DNA序列的任意区域,并且由于DNA 序列是双链结构,这些contigs可能处在双链上的任意一条链上。scaffolding方法就是确 定这些contigs之间的方向和顺序关系,进而产生更长的scaffold。scaffolding会使序列 组装结果更加连续和完整,这有助于后续基因识别,基因组比对,结构变异检测等研究, 是序列组装研究中的热点之一。
目前,以Illumina/Solexa以及AB/SOLid公司为代表的第二代测序技术在显著降低 成本的同时,单次运行也能够产生海量和错误率较低的读数。因此,第二代测序技术在国内外得到了广泛的应用。由第二代测序技术得到的双端短读数(paired reads)是来自一段较长原始基因组序列片段两端的两个序列片段。双端短读数的间距(insert size)可以达到数千碱基,所以双端短读数能够跨过一段较长的区域并克服序列组装中的部分重复区问题,因此基于双端短读数的scaffolding方法获得了研究人员广泛的关注。其步骤一般是先利用已有的序列组装工具生成contig,然后把双端短读数比对到contig上,再 通过比对信息构建scaffold图(scaffold graph或者bidiercted graph),进而推断contigs之间的方向和顺序关系。
随着测序技术的迅速发展,速度更快通量更高的第三代测序技术正在逐步完善成熟。第三代测序技术主要有太平洋生物科学公司(Pacific Biosciences)的单分子实时测序技术和牛津纳米技术公司(OxfordNanopore Technology)的纳米孔单分子技术。第三 代测序技术所产生的长读数长度可以达到数万碱基,这些长读数可以跨过基因组中大部 分的重复区,进而帮助研究人员获得完整的基因组序列。由于长读数的长度较长,能够 跨过大部分重复区,但是长读数的测序错误率较高,一般达到15%左右。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810642753.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用