[发明专利]一种基于DNA变异检测的三代数据校正方法有效

专利信息
申请号: 201810336881.2 申请日: 2018-04-16
公开(公告)号: CN108595915B 公开(公告)日: 2021-06-22
发明(设计)人: 高敬阳;高峰;陈禹保 申请(专利权)人: 北京化工大学;北京市计算中心
主分类号: G16B20/20 分类号: G16B20/20;G16B30/10;G06F16/28
代理公司: 北京太兆天元知识产权代理有限责任公司 11108 代理人: 张洪年
地址: 100029 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 dna 变异 检测 数据 校正 方法
【权利要求书】:

1.一种基于DNA变异检测的三代数据校正方法,其特征在于,包括以下步骤:

(a)数据格式转换,包括并行的线程1和线程2:

线程1:将原始三代fastq数据进行处理转换为fasta格式数据并保存,并对其建立索引得到三代fasta参考序列集合;

线程2:得到作为数据比对的二代fastq初始序列集合;

(b)DNA变异检测:

将二代fastq初始序列集合与三代fasta参考序列集合使用bwa-mem算法进行比对,得到比对结果所生产的bam文件;对bam文件进行质量控制,根据bam文件中的序列质量信息,去除低质量的序列,然后进行序列去重;对去重后的文件进行Indel Realigner,对到indel附近的reads进行局部重新比对;对bam文件中的reads进行碱基质量值的重新校正,使最后输出的bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的数据集合;使用DNAseq对此数据进行变异检测,得到二代Illumina数据与三代数据之间的变异信息,即三代数据中存在的测序错误的位置;

(c)mapping区域碱基校正:提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存,对三代数据每条序列根据每个变异位点的三代和二代碱基序列,进行替换,将三代碱基序列替换为二代碱基序列,完成三代数据的校正。

2.根据权利要求1所述的基于DNA变异检测的三代数据校正方法,其特征在于,所述线程1中,将原始三代fastq数据转换为fasta格式数据之前除低质量序列和接头序列。

3.根据权利要求1或2所述的基于DNA变异检测的三代数据校正方法,其特征在于,所述线程2中,具体过程为:去除二代Illumina测序数据中的primer和adapter,并且根据read的质量信息,将低质量的read去除。

4.根据权利要求3所述的基于DNA变异检测的三代数据校正方法,其特征在于,所述步骤(b)DNA变异检测中,对bam文件进行序列去重是去除PCR扩增中被过量扩增,非基因组中存在且不能作为校正的依据的序列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京化工大学;北京市计算中心,未经北京化工大学;北京市计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810336881.2/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top