[发明专利]对分隔长片段序列进行组装的方法和装置有效
| 申请号: | 201680063769.5 | 申请日: | 2016-02-26 |
| 公开(公告)号: | CN108350495B | 公开(公告)日: | 2021-10-01 |
| 发明(设计)人: | 谢寅龙;黄伟华;李净净;郭瑞东;唐静波;邓超 | 申请(专利权)人: | 深圳华大智造科技股份有限公司 |
| 主分类号: | C12Q1/6869 | 分类号: | C12Q1/6869;G16B25/00 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 赵天月 |
| 地址: | 518083 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分隔 片段 序列 进行 组装 方法 装置 | ||
1.一种对分隔长片段序列进行组装的方法,其特征在于,包括:
(a)通过测序获得读段集,并记录所述读段集中的读段对应的测序孔,一个测序孔包含至少一条长片段序列;
(b)利用所述读段及所述读段对应的测序孔,对多个种子序列进行并行延伸,以获得多个序列重叠群,所述多个种子序列通过已知序列确定;
(c)基于所述读段、所述序列重叠群以及所述序列重叠群包含的读段对应的测序孔,构建骨架序列,以获得分隔长片段序列的组装结果。
2.根据权利要求1所述的方法,其特征在于,所述种子序列是基于基因组参考序列按照下列步骤获得的:
在所述基因组参考序列中,按照序列重叠群间的具体距离N进行打断;以及
将经过打断的参考序列按照预定长度进行截断,以便获得所述种子序列;
所述预定长度不小于所述测序中测序文库插入片段的长度。
3.根据权利要求1所述的方法,其特征在于,所述读段集包括成对读段,所述种子序列是基于所述读段按照下列步骤获得的:
(1)将所述读段滑动切割成多个Kmer,构建Kmer对所述读段的索引RKI,用于通过Kmer访问对应的读段;
(2)从所述读段集中提取一对不具有高频Kmer的成对读段;
(3)利用所述索引RKI,分别确定(2)中的一对成对读段中的两个读段的Kmer对应的所有读段,获得第一读段群和第二读段群;
(4)分别确定(3)的第一读段群和第二读段群对应的测序孔,获得第一测序孔集和第二测序孔集;
(5)确定(4)中的第一测序孔集和第二测序孔集的交集,若所述交集的大小与碱基的有效测序孔的数量期望值无显著差异,则确定(2)中的成对读段为所述种子序列;
其中,(5)中:
若所述交集的大小在碱基的有效测序孔的数量期望值的一半到两倍之间,则确定(2)中的成对读段为所述种子序列。
4.根据权利要求1所述的方法,其特征在于,(b)包括:
(i)将所述读段滑动切割成多个Kmer,构建Kmer对所述读段的索引RKI,用于通过Kmer访问对应的读段;
(ii)基于所述读段及其对应的索引RKI,对所述多个种子序列进行并行延伸,以获得所述多个序列重叠群。
5.根据权利要求4所述的方法,其特征在于,所述RKI是通过下列步骤获得的:
对所述读段reads进行滑动切割成多个Kmer;
构建以Kmer为键值的哈希,所述哈希构成所述RKI,并且所述哈希记载所述Kmer的频率、所属读段、所述Kmer在所述读段上的位置和方向。
6.根据权利要求4所述的方法,其特征在于,通过重复下列步骤对所述种子序列进行延伸:
选择适于延伸的种子序列;
将所述读段定位至所述种子序列,以获得延伸序列;
将定位在所述延伸序列末端的读段进行逐碱基一致性化处理;以及
如果一致性化处理失败,则进行杂合识别、定相处理和/或对重复序列进行解析。
7.根据权利要求6所述的方法,其特征在于,通过下列步骤选择适于延伸的种子序列:
将种子序列滑动切割成Kmer;
通过所述RKI获取所述Kmer对应的读段;
将所述对应的读段与所述种子序列进行比对;
基于所述对应的读段对应的测序孔,确定测序孔对所述种子序列的覆盖状况;以及
基于所述覆盖状况,确定适于延伸的种子序列。
8.根据权利要求6所述的方法,其特征在于,通过下列步骤将所述读段定位至所述种子序列:
将种子序列滑动切割成Kmer;
通过所述RKI获取所述Kmer对应的读段;
将所述Kmer对应的读段定位至所述种子序列,并逐个碱基进行比对。
9.根据权利要求6所述的方法,其特征在于,在一致性化处理过程中,如果延伸的位点的有效测序孔集合被该位点不同的碱基型平均分配,则判断存在杂合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大智造科技股份有限公司,未经深圳华大智造科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680063769.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于基因组分析的系统和方法
- 下一篇:聚合酶组合物和套组以及其使用与制造方法





