[发明专利]基因组序列的组装方法、结构变异探测方法和相应的系统有效
申请号: | 201610109249.5 | 申请日: | 2016-02-26 |
公开(公告)号: | CN107133493B | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 李雷;王安琪;李峥;王占宇 | 申请(专利权)人: | 中国科学院数学与系统科学研究院 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 11409 北京德恒律治知识产权代理有限公司 | 代理人: | 章社杲;卢军峰 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因组 序列 组装 方法 结构 变异 探测 相应 系统 | ||
1.一种基因组序列的组装方法,其特征在于,包括:
(1)通过预定的映射算法将样品的被测基因组的测序序列映射到参考基因组,得到单映射测序序列叠阵集,其中,所述样品的测序序列为利用高通量测序技术测得,所述参考基因组已知并与所述样品的基因组相近;
(2)基于经过预处理的参考基因组对所述单映射测序序列叠阵集中的测序序列进行筛选,所得筛选结果根据覆盖度再次筛选,得到筛选后的单映射测序序列叠阵集;
(3)通过单方向测序序列信息对所述筛选后的单映射测序序列叠阵集进行切割,得到初始预组装叠阵集,将当前预组装叠阵集的初始值设置为所述初始预组装叠阵集;
(4)确定所述当前预组装叠阵集中每个叠阵的相对位置,形成组装基因组架构;
(5)对所述组装基因组架构中的每个叠阵进行延拓,得到每个叠阵的一致序列;
(6)将所述组装基因组架构中的相邻叠阵的一致序列中符合预定连接规则的一致序列进行连接,得到所述样品的当前的组装基因组;
(7)根据所述被测基因组上同源序列的差异调整所述预定的映射算法的映射参数,通过调整后的该预定的映射算法将所述样品的被测基因组的测序序列映射到所述当前的组装基因组,得到当前预组装叠阵集;
对所述当前预组装叠阵集迭代执行所述步骤(4)、(5)和(6),迭代次数为任何非负整数。
2.根据权利要求1所述的组装方法,其特征在于,所述步骤(1)中的所述预定的映射算法中包括预定的映射参数,所述预定的映射参数包括以下至少之一:
所述被测基因组与所述参考基因组的差异预期;
所述被测基因组的长度、测序序列的长度和质量特征;
其中,所述映射参数用于提供判别任意一个测序序列是否能够成功映射到参考基因组上某个位置起始的子序列的准则。
3.根据权利要求1所述的组装方法,其特征在于,所述步骤(1)包括:
在将样品的被测基因组的测序序列映射到参考基因组后,将所述被测基因组中映射到所述参考基因组上多个位置的测序序列去除,得到所述单映射测序序列叠阵集。
4.根据权利要求1所述的组装方法,其特征在于,所述步骤(2)中对所述参考基因组的预处理包括:
对所述参考基因组进行自映射,得到所述参考基因组中的若干唯一性序列区域。
5.根据权利要求4所述的组装方法,其特征在于,在执行权利要求1步骤(1)对所述测序序列进行映射时的映射率低于预定标准的情况下,则进行下述操作:
在执行权利要求1步骤(2)后,对于筛选后的所述测序序列叠阵集,在每一个位置,选择最大频数的碱基,用所述最大频数的碱基更新参考基因组的唯一性序列区域上对应位置的碱基;
调整所述预定的映射算法的预定的映射参数,基于已经更新过唯一性序列区域的参考基因组,重新执行所述权利要求1步骤(1)和所述步骤(2)。
6.根据权利要求1所述的组装方法,其特征在于,在执行所述步骤(1)的所述映射操作和所述步骤(2)的筛选操作时,如果被测基因组的双末端测序序列数据集的一对同伴序列的两端都被单映射到所述当前预组装叠阵集,则所述一对同伴序列的映射坐标信息在所述步骤(4)中用于形成所述组装基因组架构;
如果所述被测基因组的双末端测序序列数据集的所述一对同伴序列中的至少一端被单映射到当前预组装叠阵集,则所述一对同伴序列中的所述至少一端的映射坐标信息在所述步骤(5)中用于叠阵延拓;
其中,所述双末端测序序列数据集包括多个具有不同库长的片段库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院数学与系统科学研究院,未经中国科学院数学与系统科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610109249.5/1.html,转载请声明来源钻瓜专利网。