[发明专利]一种基于长片段进行骨架组装的方法有效
申请号: | 201710304027.3 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107273716B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 邬三毛;郭文浒;肖世俊;陈楠生 | 申请(专利权)人: | 武汉菲沙基因信息有限公司 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立;朱毅 |
地址: | 430075 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 片段 进行 骨架 组装 方法 | ||
本发明涉及一种基于长片段进行骨架组装的方法,其特征在于,包括以下步骤:S1:获得长片段序列数据和基因组拼接结果,得到基因组预估大小、基因组拼接大小以及拼接块数量;S2:根据所述长片段序列数据和基因组拼接结果估计mate pair之间的插入长度范围;S3:根据所述长片段序列数据和所述插入长度范围生成mate pair文库;S4:用S3得到的mate pair文库对所述基因组拼接结果进行骨架组装,得到骨架组装结果。通过使用本发明的方法,可在不需要进行额外的mate pair或pair end测序的情况下,直接利用已有的长片段序列来获得mate pair文库,从而完成接下来的骨架组装。
技术领域
本发明涉及基因组测序领域,更特别地,涉及一种基于长片段进行骨架组装的方法。
背景技术
由于高通量测序产生的下机结果并非完整连续的基因组,而是一系列的重叠片段,所以必须通过特定的组装算法和软件才能使这些片段组装成相对完整的基因组。然而,由于原始数据不足或组装软件缺陷,往往无法得到理想的组装结果,尤其是在基因组的复杂区域,一般较难组装,因此会在最终结果中留下一些长度和序列未知的区域,并且,由于这种区域的存在,就无法确定组装出片段的排列顺序。为了确定该顺序,目前发展了另一种技术:即骨架组装(scaffolding)技术。该技术可通过一种特殊的建库测序手段得到相距较远的两条短读序的序列,两条短读序之间的距离我们称之为插入长度(insert length),由对应的一对读序组成的序列集合我们称之为mate pair/pair-end序列,通过利用matepair/pair-end序列来确定确定拼接块(contig)之间的顺序,从而进行骨架组装。
骨架组装法可以使测序结果有较大提升,但同时也存在一些缺点。其中最大的不便就在于,为得到mate pair/pair-end序列,必须从实验层面增加建库和测序量,实验周期长,花费大。而另一方面,已经测得的长片段数据实际上还远未被组装软件充分利用,其中蕴藏大量有效连接信息还可做进一步挖掘,并且,随着三代测序逐渐成为主流,测序片段长度相比二代大大增加,达到8-10k,用这些长片段来做骨架组装的应用场景越来越多。进一步来讲,与传统骨架组装策略中增加mate pair或pair end序列相比,即使增加三代测序量来得到长片段,其性价比也会比前者更高。因此,使用三代测序的长片段来做骨架组装是一种切实可行,经济高效的方法。
但是,这一切最终都必须依赖于一种好的长片段骨架组装的方法和软件来实现,所以,发展一种长片段骨架组装方法和软件非常必要且有重大意义。
发明内容
为了解决这些问题,我们开发了本发明的方法以及相应的软件。
基于此,本发明提供了一种基于长片段进行骨架组装的方法,其特征在于,包括以下步骤:
S1:获得长片段序列数据和基因组拼接结果,得到基因组预估大小、基因组拼接大小以及拼接块数量;
S2:根据所述长片段序列数据和基因组拼接结果计算mate pair之间的插入长度范围;
S3:根据所述长片段序列数据和所述插入长度范围生成mate pair文库;
S4:用S3得到的mate pair文库对所述基因组拼接结果进行骨架组装,得到骨架。
本发明虽然使用了mate pair的概念,然而,该属于在本发明的实施方案中并非通过传统的mate pair法得序列对,而是对已有的长片段序列数据进行分析得到的序列对,这样获得的mate pair文库可用于传统骨架组装。通过使用本发明的方法,可在不需要进行额外的mate pair或pair end测序的情况下,直接利用已有的长片段序列来获得mate pair文库,从而完成接下来的骨架组装。
优选地,所述长片段序列数据通过三代测序得到。三代测序可以获得大量的长片段序列,有利于进行骨架组装。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉菲沙基因信息有限公司,未经武汉菲沙基因信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710304027.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种检测方法及装置
- 下一篇:一种肺癌血清基因的检测模型及其构建方法和应用