[发明专利]一种基于DNA变异检测的三代数据校正方法有效
申请号: | 201810336881.2 | 申请日: | 2018-04-16 |
公开(公告)号: | CN108595915B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 高敬阳;高峰;陈禹保 | 申请(专利权)人: | 北京化工大学;北京市计算中心 |
主分类号: | G16B20/20 | 分类号: | G16B20/20;G16B30/10;G06F16/28 |
代理公司: | 北京太兆天元知识产权代理有限责任公司 11108 | 代理人: | 张洪年 |
地址: | 100029 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dna 变异 检测 数据 校正 方法 | ||
本发明提供了属于生物信息技术领域的一种基于DNA变异检测的三代数据校正方法,首先将三代测序数据处理后作为参考序列数据,然后将二代测序数据处理后与其进行比对,得到比对文件。对比对文件进行变异分析检测,可以得到二代测序数据相对于三代测序数据的变异信息,利用变异信息完成对三代测序数据的校正。将DNA变异检测方法应用到三代测序数据纠错中,联合使用二代测序数据与三代测序数据,降低三代数据校正的成本,程序采用多线程的思想,加快三代数据的校正速度。本发明通过联合校正技术解决三代测序技术中存在的高错误率和高成本问题,为后续的三代测序数据变异检测方面奠定基础。
技术领域
本发明属于生物信息技术领域,具体来说,涉及一种基于DNA变异检测的三代数据校正方法。
背景技术
随着三代测序技术的发展,测序数据的片段长度不断提高,同时随着精准医疗的提出与发展,测序数据的规模呈现爆炸性的增长。现阶段正是二代测序技术向三代测序技术的过渡阶段,由于三代测序技术中存在的一些缺陷,制约着三代测序技术的发展与应用。现在采用的是三代测序数据校正软件主要有FALCON和PBcR两种,它们使用三代数据自纠错的方法对测序数据进行校正,主要分为两步:
①将参考模板序列与候选序列进行两两比对获得参考模板序列的多重比对结果;
②通过多重序列比对结果推断正确结果。
三代数据自纠错方法对测序深度有较高要求,增大了测序的成本,而且这两款软件进行自纠错时所需要的时间较长,这主要是由于自比对算法Daligner和MHAP导致的。
发明内容
为解决上述技术问题,本发明提供了一种基于DNA变异检测的三代数据校正方法,首先将三代测序数据处理后作为参考序列数据,然后将二代测序数据处理后与其进行比对,得到比对文件。对比对文件进行变异分析检测,可以得到二代测序数据相对于三代测序数据的变异信息,利用变异信息完成对三代测序数据的校正。本发明通过联合校正技术解决三代测序技术中存在的高错误率和高成本问题,为后续的三代测序数据变异检测方面奠定基础。
一种基于DNA变异检测的三代数据校正方法,其特征在于,包括以下步骤:
(a)数据格式转换,包括并行的线程1和线程2:
线程1:将原始三代fastq数据进行处理转换为fasta格式数据并保存,并对其建立索引得到三代fasta参考序列集合;
线程2:得到作为数据比对的二代fastq初始序列集合;
(b)DNA变异检测:
将二代fastq初始序列集合与三代fasta参考序列集合使用bwa-mem算法进行比对,得到比对结果所生产的bam文件;对bam文件进行质量控制,根据bam文件中的序列质量信息,去除低质量的序列,然后进行序列去重;对去重后的文件进行Indel Realigner,对到indel附近的reads进行局部重新比对;对bam文件中的reads进行碱基质量值的重新校正,使最后输出的bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的数据集合;使用DNAseq对此数据进行变异检测,得到二代Illumina数据与三代数据之间的变异信息,即三代数据中存在的测序错误的位置;
(c)mapping区域碱基校正。
优选的,所述线程1中,将原始三代fastq数据转换为fasta格式数据之前除低质量序列和接头序列。
优选的,所述线程2中,具体过程为:去除二代Illumina测序数据中的primer和adapter,并且根据read的质量信息,将低质量的read去除。
优选的,所述步骤(b)DNA变异检测中,对bam文件进行序列去重是去除PCR扩增中被过量扩增,非基因组中存在且不能作为校正的依据的序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京化工大学;北京市计算中心,未经北京化工大学;北京市计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810336881.2/2.html,转载请声明来源钻瓜专利网。