[发明专利]一种基因组测序组装结果修复的方法、装置和存储介质有效
申请号: | 201810219052.6 | 申请日: | 2018-03-16 |
公开(公告)号: | CN110310702B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 贺丽娟;刘亚斌;杨林峰;邓天全;陈露;高强 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | G16B25/00 | 分类号: | G16B25/00;G16B30/10 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 李小焦;彭家恩 |
地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因组 组装 结果 修复 方法 装置 存储 介质 | ||
1.一种基因组测序组装结果修复的方法,其特征在于:包括将待验证的基因组组装结果与Bionano分子图谱进行比对,找出两者的分子标记不匹配或者对应长度不一致的区域,在所述不匹配或者对应长度不一致的区域的基因组序列的上下游各延伸预设长度,作为异常区域;
分别分析第二代测序数据和第三代测序数据对所述异常区域的覆盖度;
根据第二代测序数据和第三代测序数据对异常区域的覆盖度,对异常区域进行修复,获得修复的基因组组装结果。
2.根据权利要求1所述的方法,其特征在于:所述对异常区域进行修复,具体包括,
根据第二代测序数据和第三代测序数据对异常区域的覆盖度,将异常区域分为四种类型:第一,第二代测序数据和第三代测序数据都没有覆盖的异常区域;第二,第二代测序数据没有覆盖,第三代测序数据虽然有覆盖,但是对于第二代测序数据没有覆盖到的位点,第三代测序数据在该位点两侧的覆盖深度不一致;第三,第二代测序数据没有覆盖,第三代测序数据有高质量和高深度覆盖的异常区域;第四,第二代测序数据和第三代测序数据都有正常覆盖的异常区域;
对四种类型的异常区域处理具体包括,对于第一和第二种类型,如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致,则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开;如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致,但标记之间长度不一致,则记录偏差的长度,对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列;
对于第三和第四种类型的异常区域,不做处理。
3.根据权利要求1或2所述的方法,其特征在于:具体包括以下步骤,
分子比对步骤,包括将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件,与Bionano分子图谱进行比对;
异常区域获取步骤,包括根据分子比对步骤的结果,提取Bionano分子图谱的酶切位点标记与待验证的基因组组装结果的对应位置的标记不匹配或者对应长度不一致的区域,记录该区域对应的酶切位点标记在基因组上的位置,以该位置为基础,在相应的基因组序列的上游和下游各延伸50-100kb作为异常区域;
第二代测序数据比对步骤,包括将异常区域的序列与第二代测序数据的多个插入片段文库的Pair End测序数据进行比对分析,分析所有文库reads对异常区域的覆盖情况,并记录覆盖异常的位点;
第三代测序数据比对步骤,包括将异常区域的序列与第三代测序经过纠错后的数据进行对比分析,验证第三代测序数据对异常区域的覆盖情况,并检测第二代测序数据覆盖异常的区域内第三代测序数据是否覆盖正常;
异常区域处理步骤,包括根据第二代测序数据比对步骤和第三代测序数据比对步骤的结果,将异常区域分为:第一,第二代测序数据和第三代测序数据都没有覆盖的异常区域;第二,第二代测序数据没有覆盖,第三代测序数据虽然有覆盖,但是对于第二代测序数据没有覆盖到的位点,第三代测序数据在该位点两侧的覆盖深度不一致;第三,第二代测序数据没有覆盖,第三代测序数据有高质量和高深度覆盖的异常区域;第四,第二代测序数据和第三代测序数据都有正常覆盖的异常区域;
对四种类型的异常区域处理具体包括,对于第一和第二种类型,如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构不一致,则基因组在异常区域中第二代测序数据和第三代测序数据均未覆盖的两个端点处断开;如果Bionano分子图谱的酶切位点标记与基因组序列上对应的酶切位点结构一致,但标记之间长度不一致,则记录偏差的长度,对标记出的覆盖异常位点范围内的序列替换为长度为偏差长度的间隙序列;
对于第三和第四种类型,不做处理。
4.根据权利要求3所述的方法,其特征在于:所述分子比对步骤中,将待验证的基因组组装结果的序列文件转化为对应酶切位点位置组成的文件,包括将fasta格式的待验证的基因组组装结果序列转化为cmap格式;所述Bionano分子图谱为Bionano测序数据自组装的结果。
5.根据权利要求4所述的方法,其特征在于: Bionano测序数据自组装由组装软件RefAlign进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810219052.6/1.html,转载请声明来源钻瓜专利网。