[发明专利]一种快速准确鉴定高通量基因组数据污染源的方法有效

专利信息
申请号: 201610117589.2 申请日: 2016-03-02
公开(公告)号: CN105740650B 公开(公告)日: 2019-04-05
发明(设计)人: 尹玲;曲俊杰;卢江 申请(专利权)人: 广西作物遗传改良生物技术重点开放实验室
主分类号: G16B20/00 分类号: G16B20/00
代理公司: 北京中誉威圣知识产权代理有限公司 11279 代理人: 王正茂
地址: 530007 广西壮族*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 快速 准确 鉴定 通量 基因组 数据 污染源 方法
【说明书】:

发明公开了一种快速准确鉴定高通量基因组数据污染源的方法,该方法首先组装denovo测序的原始基因组测序数据,得到组装结果,将组装结果进行基因预测,并翻译得到基因所对应蛋白的氨基酸序列,将组装的基因组序列和氨基酸序列分别与NCBI的NT数据库和NR数据库进行blast比对,得到有同源性的序列,作为原始比对数据库;从原始比对数据库中,提取序列对应的物种信息并排序,将序列对应的物种从多到少进行排序,结合基因数据的结果和氨基酸数据的结果,综合判断是否存在外源污染。本发明的方法可大限度的降低基因组denovo项目中,外来污染源对高通量基因组测序数据的污染和对后续生物信息学分析的影响,并提高污染源鉴定的速度和效率。

技术领域

本发明属于分子生物学技术领域,涉及一种快速准确鉴定高通量基因组数据污染源的方法。

背景技术

高通量测序技术(High-throughput sequencing)又称“下一代”测序技术,可以一次对几十万到几百万条DNA分子进行序列测定。

近年来,随着高通量测序技术的测序通不断提高、运行时间不断缩短、测序片段不断增长、成本不断降低,使高通量测序技术的应用范围越来越广,越来越多的团队选择通过高通量测序方法开展科学研究、辅助育种等,随着海量基因数据被测序,越来越多的物种公布了全基因组数据,为更进一步的研究打下了很好的基础。

但是测序样品的外源污染问题一直是不容忽视的问题,给后续数据分析造成很大的影响和障碍。

造成污染的原因有很多,主要的原因有以下几点:一是由于负责样品制备的试验人员的不规范操作,引入外源污染;二是很多样品的收集并不是也无法在无菌的环境下进行,空气中本身就存在着很多微生物;三是在文库制备及测序的过程中,也很可能因为实验人员的不规范操作会造成不同样品间的交叉污染。

在全基因组denovo从头测序中,由于测序通量通常比较高,因此小部分的污染也可能使最终产出的raw data中存在相当可观的污染数据量,对后续的基因组组装结果造成很大影响,进而影响后续的基因结构注释、基因功能注释和后续的生物信息学分析,直接关系到项目的成败。因此,除了在样品准备、文库制备及测序阶段要尽量规范操作避免外源污染外,在拿到测序平台的下机raw data数据开展后续的生物信息学分析之前,还需要采取高效准确的方法从GB甚至TB级的海量测序原始数据中快速对污染情况进行定性,并快速锁定外源污染源,进而对外源污染数据进行去除,得到去污染后的clean data后再开展后续的生物信息学分析。

由于生物信息学是新兴学科,很多数据分析人员由于刚接触高通量基因组测序数据的生物信息学分析工作,缺乏足够的知识储备,对外源污染源污染问题缺乏认识,或对污染问题对后续生物信息学分析工作的影响问题认识不足,所以很多时候对测序的原始数据不采取任何质控或污染鉴定和去除的工作,或仅仅进行简单的质控分析去除低质量的reads和接头后,就直接进行后续的生物信息学分析。

一般情况下,对高通量测序数据的去污染原理是利用blast程序,设置特定的参数和比对阈值(主要包括identity和e value两个参数,分别设置阈值为80%和1e-5),与NCBI的NT数据库(非冗余核酸库)进行比对,通过比对上的序列对应的物种信息,来确定测序数据是否有污染,以及具体是何种物种导致的污染。由于高通量测序平台下机的raw data数据量非常大(达到GB甚至TB级别),而NT数据库所包含的数据信息更是巨大的。因此,对原始数据逐条进行比对就意味着原始数据的每一条都要与每条NT数据库中的序列进行一一比对,从而找到最佳匹配结果,然后才能进行下一条测序数据的比对。采用该算法所花费CPU资源巨大,时间消耗巨大,并随着测序数据量的增加呈正比例增加,少则数周,多则数月都无法完成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西作物遗传改良生物技术重点开放实验室,未经广西作物遗传改良生物技术重点开放实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610117589.2/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top