[发明专利]一种基于三代测序的全基因组结构变异分析方法和系统有效
申请号: | 201710266327.7 | 申请日: | 2017-04-21 |
公开(公告)号: | CN107180166B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 汪德鹏;方立;王凯;张朋;胡江 | 申请(专利权)人: | 北京希望组生物科技有限公司 |
主分类号: | G16B20/20 | 分类号: | G16B20/20 |
代理公司: | 武汉河山金堂专利事务所(普通合伙) 42212 | 代理人: | 胡清堂 |
地址: | 102206 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 三代测序 基因组 结构 变异 分析 方法 系统 | ||
1.一种基于三代测序的全基因组结构变异分析方法,其特征在于,包括以下流程:
1)序列拆分,将基因组的测序序列拆分成若干个用于同步分析的子序列;
2)序列比对,将每个所述子序列分别通过两种比对工具与参考基因组比对,获得的比对结果分别通过合并工具合并得到两组比对序列;
3)基因组结构变异初步检测,将所述两组比对序列中每组比对序列仅通过对应的一种结构变异分析工具进行检测,两组比对序列经分别检测后得到两组基因组结构变异初步检测结果;
4)基因组结构变异初步检测结果合并筛选:
4.1)分别将两组基因组结构变异初步检测结果转换成统一格式;
4.2)合并两组基因组结构变异初步检测结果:
4.2.1)遍历两组基因组结构变异初步检测结果中的缺失序列,如果所述两组基因组结构变异初步检测结果中缺失序列重叠部分的长度分别占两缺失序列长度的比例均大于50%,则判定该两个缺失序列为同一个缺失序列;反之,两个缺失序列为不同的缺失序列;
4.2.2)分别计算4.2.1)中所述判定为同一个缺失序列的两个缺失序列的起始位点和终止位点的均值,所述均值为4.2.1)所述判定的同一个缺失序列的起始位点和终止位点;
4.2.3)重复4.2.1)和4.2.2)中步骤,筛选出两组基因组结构变异初步检测结果中所有同一个缺失序列,放入缺失序列的交集;筛选出两组基因组结构变异初步检测结果中所有不同的缺失序列,放入缺失序列的并集;
4.2.4)遍历两组基因组结构变异初步检测结果中的插入序列,判断如果两插入序列的距离小于1000bp,则判定该两个插入序列为同一个插入序列;反之,两个插入序列为不同的插入序列;
4.2.5)分别计算4.2.4)中所述判定为同一个插入序列的两个插入序列的起始位点和终止位点的均值,所述均值为4.2.4)所述判定的同一个插入序列的起始位点和终止位点;
4.2.6)重复4.2.4)和4.2.5)中步骤,筛选出两组基因组结构变异初步检测结果中所有同一个插入序列,放入插入序列的交集;筛选出两组基因组结构变异初步检测结果中所有不同的插入序列,放入插入序列的并集;
4.3)数据结果质控:
根据交集和并集中的基因组结构变异检测结果的比例以及该区域的覆盖度,所述该区域为交集和并集中的基因组结构变异,所述交集包括缺失序列的交集和插入序列的交集,所述并集包括缺失序列的并集和插入序列的并集,支持数低于20%的基因组结构变异删除,得到基因组结构变异最终检测结果;
5)基因组结构变异功能注释,利用注释工具注释基因组结构变异最终检测结果。
2.根据权利要求1所述一种基于三代测序的全基因组结构变异分析方法,其特征在于,所述步骤2)中所述两种比对工具分别为blasr和bwa;所述步骤2)中合并工具为samtools。
3.根据权利要求2所述一种基于三代测序的全基因组结构变异分析方法,其特征在于,所述步骤3)中通过blasr比对得到的比对序列对应的结构变异分析工具为PBhoney;所述步骤3)中通过bwa比对得到的比对序列对应的结构变异分析工具为Sniffles。
4.根据权利要求3所述一种基于三代测序的全基因组结构变异分析方法,其特征在于,所述步骤4.1)中的统一格式为bed格式。
5.根据权利要求4所述一种基于三代测序的全基因组结构变异分析方法,其特征在于,所述步骤5)中的注释工具为annovar。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京希望组生物科技有限公司,未经北京希望组生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710266327.7/1.html,转载请声明来源钻瓜专利网。