[发明专利]一种基于长读数和contig分类的scaffolding方法在审

专利信息
申请号: 201810642753.0 申请日: 2018-06-21
公开(公告)号: CN108830047A 公开(公告)日: 2018-11-16
发明(设计)人: 罗军伟;王俊峰;张波;张霄宏;贾利琴 申请(专利权)人: 河南理工大学
主分类号: G06F19/26 分类号: G06F19/26;G06F19/22
代理公司: 暂无信息 代理人: 暂无信息
地址: 454000 河南*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 简单路径 非重复 比对 重复 集合 比对结果 线性规划 真实数据 分类 构建 冲突 表现
【说明书】:

发明公开了一种基于长读数和contig分类的scaffolding方法。本方法首先把长读数比对到contig集合上,根据比对结果生成局部scaffold集合。一条局部scaffold是由比对到同一条长读数的contig构成。基于每条contig在局部scaffold中出现的位置信息,把所有的contig分成两类,一类是重复contig,另一类是非重复contig。构建只包含非重复contig的scaffold图,图中每一个节点代表一个非重复contig。接着利用线性规划方法消除scaffold图中的方向和顺序冲突,并使scaffold图中只包含简单路径,其中每条简单路径对应一条scaffold。然后把重复contig插入到scaffold中,形成最终的scaffolding结果。本发明简单易用,在不同的真实数据上表现出良好的scaffolding结果,较其它scaffolding方法具有更高的准确性和连续性。

技术领域

本发明涉及生物信息学的序列组装领域,特别是一种基于长读数和contig分类的scaffolding方法。

背景技术

基因组一般是指全部编码和非编码的脱氧核糖核酸(DNA)序列,它是由四种碱基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)组成的序列,即基因组序 列是一个字符串,这个字符串中只包含四个字符A,T,G,C。在实际基因组序列中也 包含另一个字符N,代表该位置的碱基无法确定。基因组DNA序列包含了遗传和调控 信息,引导生物发育与生命机能运作。在基础生物学研究和众多应用领域中,如诊断、 生物技术、法医生物学、生物系统学中,完整和正确的基因组DNA序列已成为不可缺 少的知识。通过基因组测序,可以获得大量基因组序列上碱基序列片段(读数或read)。 序列组装是通过这些得到的序列片段还原整个基因组DNA序列的方法。而由于重复区、 测序错误以及测序不均衡等问题,序列组装方法往往先生成一些比较独立和零散的序列 片段,即contig,这些contig可能分布在基因组DNA序列的任意区域,并且由于DNA 序列是双链结构,这些contigs可能处在双链上的任意一条链上。scaffolding方法就是确 定这些contigs之间的方向和顺序关系,进而产生更长的scaffold。scaffolding会使序列 组装结果更加连续和完整,这有助于后续基因识别,基因组比对,结构变异检测等研究, 是序列组装研究中的热点之一。

目前,以Illumina/Solexa以及AB/SOLid公司为代表的第二代测序技术在显著降低 成本的同时,单次运行也能够产生海量和错误率较低的读数。因此,第二代测序技术在国内外得到了广泛的应用。由第二代测序技术得到的双端短读数(paired reads)是来自一段较长原始基因组序列片段两端的两个序列片段。双端短读数的间距(insert size)可以达到数千碱基,所以双端短读数能够跨过一段较长的区域并克服序列组装中的部分重复区问题,因此基于双端短读数的scaffolding方法获得了研究人员广泛的关注。其步骤一般是先利用已有的序列组装工具生成contig,然后把双端短读数比对到contig上,再 通过比对信息构建scaffold图(scaffold graph或者bidiercted graph),进而推断contigs之间的方向和顺序关系。

随着测序技术的迅速发展,速度更快通量更高的第三代测序技术正在逐步完善成熟。第三代测序技术主要有太平洋生物科学公司(Pacific Biosciences)的单分子实时测序技术和牛津纳米技术公司(OxfordNanopore Technology)的纳米孔单分子技术。第三 代测序技术所产生的长读数长度可以达到数万碱基,这些长读数可以跨过基因组中大部 分的重复区,进而帮助研究人员获得完整的基因组序列。由于长读数的长度较长,能够 跨过大部分重复区,但是长读数的测序错误率较高,一般达到15%左右。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810642753.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top