[发明专利]一种基于长读数和contig分类的scaffolding方法在审

专利信息
申请号: 201810642753.0 申请日: 2018-06-21
公开(公告)号: CN108830047A 公开(公告)日: 2018-11-16
发明(设计)人: 罗军伟;王俊峰;张波;张霄宏;贾利琴 申请(专利权)人: 河南理工大学
主分类号: G06F19/26 分类号: G06F19/26;G06F19/22
代理公司: 暂无信息 代理人: 暂无信息
地址: 454000 河南*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于长读数和contig分类的scaffolding方法。本方法首先把长读数比对到contig集合上,根据比对结果生成局部scaffold集合。一条局部scaffold是由比对到同一条长读数的contig构成。基于每条contig在局部scaffold中出现的位置信息,把所有的contig分成两类,一类是重复contig,另一类是非重复contig。构建只包含非重复contig的scaffold图,图中每一个节点代表一个非重复contig。接着利用线性规划方法消除scaffold图中的方向和顺序冲突,并使scaffold图中只包含简单路径,其中每条简单路径对应一条scaffold。然后把重复contig插入到scaffold中,形成最终的scaffolding结果。本发明简单易用,在不同的真实数据上表现出良好的scaffolding结果,较其它scaffolding方法具有更高的准确性和连续性。
搜索关键词: 简单路径 非重复 比对 重复 集合 比对结果 线性规划 真实数据 分类 构建 冲突 表现
【主权项】:
1.一种基于长读数和contig分类的scaffolding方法,其特征在于,包括以下步骤:1)首先将长读数比对到contig集合上,并生成局部scaffold集合;1.1)利用比对工具BWA,把长读数集合比对到contig集合上,生成比对结果。其中只考虑长度大于Lr的长读数和长度大于Lc的contig,Lr=500,Lc=3000。1.2)针对一条长读数,抽取出所有能够比对到它上的contig集合,并计算比对区间位置。如果没有或者只有一条contig比对上,则该条长读数不做后续处理。如果有两条或者更多条contig能够比对上,则根据该条长读数和这些contig之间的比对位置和方向信息,确定这些contig之间的先后顺序和方向,并生成一条局部scaffold。当处理完所有的长读数后,生成一个局部scaffold集合。2)contig分类;如果一条contig出现在两条或者更多条局部scaffold的中间位置(即在一个局部scaffold中,它既不是第一个,也不是最后一个contig),并且在不同的局部scaffold中紧邻它5’端(或者3’端)的contig并不全一样,则该条contig是重复contig。或者一条contig的长度小于MIN,MIN=2000,则也认为该条contig是重复contig。剩下的contig为非重复contig。当处理完所有的contig后,则所有的contig被分成两类:重复contig和非重复contig。3)构建和优化scaffold图;3.1)首先针对每个非重复contig构建一个节点;针对两个非重复contig,判断它们是否同时出现在同一条局部scaffold中,如果可以,则根据比对信息,确定这两个非重复contig之间的方向和顺序信息,并计算它们之间的距离。然后判断它们之间是否能够添加一条边,并确定边的权重。当处理完所有的两两节点后,则一个初始scaffold图构建完成。3.2)scaffold图中每条边约束了其相连接两个节点之间的方向、顺序和距离信息,因此根据scaffold图中所有的边,构建线性规划模型,检测和移除造成方向和顺序冲突的边,保证scaffold图中不存在方向和顺序冲突。3.3)消除冲突后,在scaffold图中,如果存在多个节点同时和某个节点的5’端(或者3’端)相连,则只保留权重最大的边,剩余的边进行移除。通过上述步骤的处理,scaffold图中只包含简单路径。4)生成scaffold集合;scaffold图中的一条简单路径包含了节点的顺序和方向信息,以及相邻节点之间的距离信息,因此每条简单路径对应一个scaffold,并生成一个scaffold集合。针对两个在scaffold中紧邻的非重复contig,如果一条局部scaffold包含它们,并且在该局部scaffold中它们之间包含的全部是重复contig,则这些方向和顺序确定的重复contig是一个插入候选项。如果两条非重复contig出现在多条局部scaffold中,则每条局部scaffold对应一个插入候选项,则选择具有最多频次的插入候选项插入到这两个非重复contig中间。如果最多频次的插入候选项有多个,则这两个非重复contig不进行插入操作。当处理完所有的相邻非重复contig后,生成最终的scaffold集合。其中contig为基因组序列片段;scaffold为基因组超长序列片段;scaffolding方法是指用于确定各条contig的方向,以及它们在基因组序列上的先后顺序,从而产生一些基因组超长序列片段,即scaffold的方法。一条序列的最左端是其5’端,最右端是其3’端。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810642753.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top