[发明专利]一种基于DNA变异检测的三代数据校正方法有效

申请号：	201810336881.2	申请日：	2018-04-16
公开（公告）号：	CN108595915B	公开（公告）日：	2021-06-22
发明（设计）人：	高敬阳;高峰;陈禹保	申请（专利权）人：	北京化工大学;北京市计算中心
主分类号：	G16B20/20	分类号：	G16B20/20;G16B30/10;G06F16/28
代理公司：	北京太兆天元知识产权代理有限责任公司 11108	代理人：	张洪年
地址：	100029 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 dna 变异检测数据校正方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于DNA变异检测的三代数据校正方法，其特征在于，包括以下步骤：

(a)数据格式转换，包括并行的线程1和线程2：

线程1：将原始三代fastq数据进行处理转换为fasta格式数据并保存，并对其建立索引得到三代fasta参考序列集合；

线程2：得到作为数据比对的二代fastq初始序列集合；

(b)DNA变异检测：

将二代fastq初始序列集合与三代fasta参考序列集合使用bwa-mem算法进行比对，得到比对结果所生产的bam文件；对bam文件进行质量控制，根据bam文件中的序列质量信息，去除低质量的序列，然后进行序列去重；对去重后的文件进行Indel Realigner，对到indel附近的reads进行局部重新比对；对bam文件中的reads进行碱基质量值的重新校正，使最后输出的bam文件中reads的质量值接近真实值，以此作为三代数据校正所使用的数据集合；使用DNAseq对此数据进行变异检测，得到二代Illumina数据与三代数据之间的变异信息，即三代数据中存在的测序错误的位置；

(c)mapping区域碱基校正：提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存，对三代数据每条序列根据每个变异位点的三代和二代碱基序列，进行替换，将三代碱基序列替换为二代碱基序列，完成三代数据的校正。

2.根据权利要求1所述的基于DNA变异检测的三代数据校正方法，其特征在于，所述线程1中，将原始三代fastq数据转换为fasta格式数据之前除低质量序列和接头序列。

3.根据权利要求1或2所述的基于DNA变异检测的三代数据校正方法，其特征在于，所述线程2中，具体过程为：去除二代Illumina测序数据中的primer和adapter，并且根据read的质量信息，将低质量的read去除。

4.根据权利要求3所述的基于DNA变异检测的三代数据校正方法，其特征在于，所述步骤(b)DNA变异检测中，对bam文件进行序列去重是去除PCR扩增中被过量扩增，非基因组中存在且不能作为校正的依据的序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京化工大学;北京市计算中心，未经北京化工大学;北京市计算中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810336881.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种烟草线粒体RNA编辑位点高精度预测方法
下一篇：基于生成对抗网络的基因表达全谱推断方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于DNA变异检测的三代数据校正方法有效

专利文献下载