[发明专利]基于宏基因组拼接错误的检测校正系统在审
| 申请号: | 202111451194.3 | 申请日: | 2021-12-01 |
| 公开(公告)号: | CN114155914A | 公开(公告)日: | 2022-03-08 |
| 发明(设计)人: | 赵兴明;赖森莹 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20;G16B20/20;G16B40/00 |
| 代理公司: | 合肥正则元起专利代理事务所(普通合伙) 34160 | 代理人: | 杨润 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 宏基 拼接 错误 检测 校正 系统 | ||
本发明公开了基于宏基因组拼接错误的检测校正系统,涉及基因组测序拼接技术领域,解决了由于高通量测序数据的通量高,序列短,噪声大的特点,这就导致基因组的组装结果通常会引入组装错误,而组装错误也给下游分析带来影响的问题,通过利用提取的contig水平的相关特征建立的样本特征矩阵预测可能存在组装错误的contig,利用提取的短窗口水平的相关特征建立的窗口特征矩阵在基于无监督的预测方法下得到组装错误所在的具体位点;在预测到的组装错误所在具体位点处进行contig打断,从而进行校正,便能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准确性。
技术领域
本发明属于基因组测序拼接技术领域,具体是基于宏基因组拼接错误的检测校正系统。
背景技术
基于下一代测序的基因组测序拼接算法能够帮助了解环境样本中的微生物组成,由于高通量测序数据的通量高,序列短,噪声大的特点,以及宏基因组样本中通常包含数千物种的DNA片段,这就导致基因组的组装结果通常会引入组装错误,而组装错误也会给下游分析带来影响。
因此为了提高组装基因组的质量以及改善下游分析结果,故需要一种能够不基于参考基因组的宏基因组组装错误检测及校正系统,能够检测出宏基因组组装的重叠群中的组装错误并进行校正,从而降低组装过程中引入的错误,提高组装结果的准确性。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出基于宏基因组拼接错误的检测校正系统,该基于宏基因组拼接错误的检测校正系统解决了由于高通量测序数据的通量高,序列短,噪声大的特点,以及宏基因组样本中通常包含数千物种的DNA片段,这就导致基因组的组装结果通常会引入组装错误,而组装错误也会给下游分析带来影响的问题。
为实现上述目的,根据本发明的第一方面的实施例提出基于宏基因组拼接错误的检测校正系统,包括:
数据存储模块用于对初始bam文件以及初始fasta文件内部的测序数据序列进行整理,并生成比对结果bam文件;
特征提取模块用于对比对结果bam文件中提取并处理相关特征,其中样本特征主要包括四类:1、基于覆盖率的特征;2、基于双端短读段比对一致性的特征;3、基于k-mer一致性的特征;4、基于单碱基变异的特征;
数据预处理模块提取满足条件的比对结果bam文件并且对比对结果bam文件内部的数据进行整理,将整理后的数据输送至模型训练模块内;
模型训练模块根据整理好的数据集训练机器学习模型;
组装错误contig检测模块对存在组装错误的contig进行识别,其中contig存在于比对结果bam文件中;
组装错误位点识别模块,对拼接错误的contig上的组装错误位点进行识别;
组装错误校正模块对识别到的组装错误进行组装校正,生成contig特征矩阵。
优选的,模型训练模块内集训方式采用的是随机森林模型。
优选的,数据存储模块内部包括数据筛选单元和bwa比对单元;
数据存储模块对测序数据序列进行整理的步骤为:首先对输入包含contigs的fasta文件通过数据筛选单元进行过滤筛选,筛选出大于1000bp的contig文件用于后续的分析;将组装成大于1000bp的contig文件中所用到的双端短读段序列及read文件输入至bwa比对单元进行比对,bwa比对单元会生成比对结果,并且过滤掉低质量比对结果,最终得到比对结果bam文件。
优选的,特征提取模块对基于覆盖率的特征处理方式为:通过双端短读段映射到contig上的覆盖率的均匀程度来衡量组装质量,同时通过双端短读段映射后得到的覆盖率的变异度,生成contig对应的组装质量的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111451194.3/2.html,转载请声明来源钻瓜专利网。





