[发明专利]基于contig质量评估分类及图优化的scaffolding方法有效

专利信息
申请号: 201810242418.1 申请日: 2018-03-22
公开(公告)号: CN108491687B 公开(公告)日: 2021-07-13
发明(设计)人: 李敏;唐丽;吴彬彬;罗军伟;王建新 申请(专利权)人: 中南大学
主分类号: G16B30/20 分类号: G16B30/20;G16B40/00
代理公司: 长沙市融智专利事务所(普通合伙) 43114 代理人: 杨萍
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 contig 质量 评估 分类 优化 scaffolding 方法
【说明书】:

发明公开了一种基于contig质量评估分类及图优化的scaffolding方法,采用序列比对信息以及contig的GC含量信息对contig集合进行质量评估并分类,再将每个contig作为一个节点,根据双端读数比对到contig上的数量期望值以及实际值之间的差异判断是否在两个节点之间构建边,并计算边的权值,构建加权的scaffold图。最后通过为节点分配方向以及剪切节点来消除scaffold图中的方向冲突,通过为节点分配顺序来消除scaffold图中的顺序冲突。本发明简单易用,在四组真实测序数据上表现出良好的拼接结果,较其他序列拼接方法具有更高的F‑score值。

技术领域

本发明属于生物信息学领域,涉及contig质量评估分类以及scaffold图优化的scaffolding方法。

背景技术

从头序列组装(De Novo Sequence Assembly)是基因组学领域一项重要的研究方向,同时也是基因组学下游分析的一项重要基础。基因组学对基因组的组成、组内各基因精确结构、表达调控以及相互关系等方面进行了研究,序列拼接作为研究的基础条件,其准确性对整个基因组学的研究起着关键作用。由于基因组DNA序列结构比较复杂,特别是重复区(即一段DNA片段多次出现在基因组的不同位置)问题,测序错误问题(即读数中包含一定的错误碱基),以及读数长度问题等限制了序列组装方法的应用。

序列组装包括以下三大步骤:(1)contig构建阶段:一条contig就是一条DNA序列片段,是根据读数之间的重叠关系对种子序列进行左右扩展得到的较长的序列。目前已经提出了很多contig构建的方法,一种是基于读数重叠图的方法,另一种是基于De Bruijin图的方法。(2)scaffolding阶段:对于第一阶段产生的大量contig,本阶段确定这些contig的方向及顺序关系,从而产生长度更长的序列片段scaffolds,scaffolds之间的空白区域用“N”来填充。(3)gap填充阶段:该阶段确定scaffolds中gap区域的序列,进而减少scaffolds中未知区域的长度。

由于序列工具产生的contig可能分布在基因组序列的任意区域,并且由于DNA是双链结构,这些contig可能处于双链上的任意一条链上,如果两个contig处在同一条链上,那么这两个contig就是同向的。Scaffolding方法用来确定contig之间的方向以及顺序关系,将它们组装成一些更长的序列片段(scaffold)。Scaffolding基于双端读数以及contig集合的支持,是序列拼接过程中十分重要的阶段,scaffolding能够使序列组装的结果更连续更完整,有助于后续基因识别,基因组比对,结构变异检测等研究,是序列组装研究中的热点之一。由于第二代测序技术比较成熟,并且具有正确率高、成本低和通量高的优势,所以在国内外得到了广泛的应用。虽然第二代测序技术产生的读数比较短,但是测序得到的双端读数的插入长度可以达到数千碱基,能够克服重复去带来的问题。所以采用双端读数来推断contig之间的方向和顺序关系是scaffolding方法研究的热点。

现有的scaffolding方法通常可以分为两大类:

(1)基于图的scaffolding方法。其基本思路是:首先将双端文库比对到contig集合上,将contig视为顶点,然后根据双端读数的比对情况,对存在双端支持的contig之间加一条有向边,由比对结果可推导出边的方向,以此构建有向图。由于构建的原始有向图较为复杂,并且包含许多可靠性很差的边,因此需要将图进行化简。化简图的方法一般包括移除矛盾边和含有重复区的contig节点,以及子图分割等,它们的目的都是在保证高质量边不被删除的情形下降低图的复杂性。在化简图之后,再从图中抽取路径,每条路径代表一条scaffold。基于图的scaffolding算法主要有GRASS,MIP,SOPRA,Bambus2,SCARPA,Opera,SGA,ABySS,ScaffoldMatch等。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810242418.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top