[发明专利]一种基于长读数和contig分类的scaffolding方法在审
申请号: | 201810642753.0 | 申请日: | 2018-06-21 |
公开(公告)号: | CN108830047A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 罗军伟;王俊峰;张波;张霄宏;贾利琴 | 申请(专利权)人: | 河南理工大学 |
主分类号: | G06F19/26 | 分类号: | G06F19/26;G06F19/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 454000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于长读数和contig分类的scaffolding方法。本方法首先把长读数比对到contig集合上,根据比对结果生成局部scaffold集合。一条局部scaffold是由比对到同一条长读数的contig构成。基于每条contig在局部scaffold中出现的位置信息,把所有的contig分成两类,一类是重复contig,另一类是非重复contig。构建只包含非重复contig的scaffold图,图中每一个节点代表一个非重复contig。接着利用线性规划方法消除scaffold图中的方向和顺序冲突,并使scaffold图中只包含简单路径,其中每条简单路径对应一条scaffold。然后把重复contig插入到scaffold中,形成最终的scaffolding结果。本发明简单易用,在不同的真实数据上表现出良好的scaffolding结果,较其它scaffolding方法具有更高的准确性和连续性。 | ||
搜索关键词: | 简单路径 非重复 比对 重复 集合 比对结果 线性规划 真实数据 分类 构建 冲突 表现 | ||
【主权项】:
1.一种基于长读数和contig分类的scaffolding方法,其特征在于,包括以下步骤:1)首先将长读数比对到contig集合上,并生成局部scaffold集合;1.1)利用比对工具BWA,把长读数集合比对到contig集合上,生成比对结果。其中只考虑长度大于Lr的长读数和长度大于Lc的contig,Lr=500,Lc=3000。1.2)针对一条长读数,抽取出所有能够比对到它上的contig集合,并计算比对区间位置。如果没有或者只有一条contig比对上,则该条长读数不做后续处理。如果有两条或者更多条contig能够比对上,则根据该条长读数和这些contig之间的比对位置和方向信息,确定这些contig之间的先后顺序和方向,并生成一条局部scaffold。当处理完所有的长读数后,生成一个局部scaffold集合。2)contig分类;如果一条contig出现在两条或者更多条局部scaffold的中间位置(即在一个局部scaffold中,它既不是第一个,也不是最后一个contig),并且在不同的局部scaffold中紧邻它5’端(或者3’端)的contig并不全一样,则该条contig是重复contig。或者一条contig的长度小于MIN,MIN=2000,则也认为该条contig是重复contig。剩下的contig为非重复contig。当处理完所有的contig后,则所有的contig被分成两类:重复contig和非重复contig。3)构建和优化scaffold图;3.1)首先针对每个非重复contig构建一个节点;针对两个非重复contig,判断它们是否同时出现在同一条局部scaffold中,如果可以,则根据比对信息,确定这两个非重复contig之间的方向和顺序信息,并计算它们之间的距离。然后判断它们之间是否能够添加一条边,并确定边的权重。当处理完所有的两两节点后,则一个初始scaffold图构建完成。3.2)scaffold图中每条边约束了其相连接两个节点之间的方向、顺序和距离信息,因此根据scaffold图中所有的边,构建线性规划模型,检测和移除造成方向和顺序冲突的边,保证scaffold图中不存在方向和顺序冲突。3.3)消除冲突后,在scaffold图中,如果存在多个节点同时和某个节点的5’端(或者3’端)相连,则只保留权重最大的边,剩余的边进行移除。通过上述步骤的处理,scaffold图中只包含简单路径。4)生成scaffold集合;scaffold图中的一条简单路径包含了节点的顺序和方向信息,以及相邻节点之间的距离信息,因此每条简单路径对应一个scaffold,并生成一个scaffold集合。针对两个在scaffold中紧邻的非重复contig,如果一条局部scaffold包含它们,并且在该局部scaffold中它们之间包含的全部是重复contig,则这些方向和顺序确定的重复contig是一个插入候选项。如果两条非重复contig出现在多条局部scaffold中,则每条局部scaffold对应一个插入候选项,则选择具有最多频次的插入候选项插入到这两个非重复contig中间。如果最多频次的插入候选项有多个,则这两个非重复contig不进行插入操作。当处理完所有的相邻非重复contig后,生成最终的scaffold集合。其中contig为基因组序列片段;scaffold为基因组超长序列片段;scaffolding方法是指用于确定各条contig的方向,以及它们在基因组序列上的先后顺序,从而产生一些基因组超长序列片段,即scaffold的方法。一条序列的最左端是其5’端,最右端是其3’端。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南理工大学,未经河南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810642753.0/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用