[发明专利]一种高通量测序的微生物数据处理方法有效
| 申请号: | 201811130694.5 | 申请日: | 2018-09-27 |
| 公开(公告)号: | CN109273053B | 公开(公告)日: | 2021-10-08 |
| 发明(设计)人: | 宁康;奚望;高岩;成章昱;陈超云;韩毛振 | 申请(专利权)人: | 华中科技大学鄂州工业技术研究院;华中科技大学 |
| 主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B20/00 |
| 代理公司: | 上海精晟知识产权代理有限公司 31253 | 代理人: | 熊娴;冯子玲 |
| 地址: | 436000 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 通量 微生物 数据处理 方法 | ||
1.一种高通量测序的微生物数据处理方法,其特征在于,所述方法包括:高通量测序的微生物16sRNA读段进行重叠群组装、分箱,以q-PCR标记微生物重叠群,使所述微生物重叠群包含标记基因,去除含有标记基因的生物重叠群,获得高质量微生物宏基因组测序数据。
2.根据权利要求1所述的高通量测序的微生物数据处理方法,其特征在于,所述数据处理方法包括如下步骤:
a)通过已公开序列建立模拟数据集,通过高通量测序数据建立真实宏基因数据集;
b)对模拟数据集和真实宏基因数据集内数据进行质量控制,去掉低质量的碱基和读段,提取16sRNA基因;
c)生成分类学概况,通过HMM从原始测序数据中提取16sRNA序列,以Greengene数据库搜索序列以确定物种的来源,16sRNA数据搜索物种数量;
d)进行重叠群组装,使用velvet命令从velveth获得的k-mers构建de Bruijn图并提取重叠群,使用MEGAHIT对de Bruijn图进行汇编;
e)以q-PCR方法标记基因,将含有标记基因的重叠群鉴定为污染物种,对污染物种聚类鉴定,去除污染物种,获得去除污染的高质量微生物宏基因组测序数据。
3.根据权利要求2所述的高通量测序的微生物数据处理方法,其特征在于,模拟数据集收集现有数据库的目标和污染物种的高通量读段模拟真实情况。
4.根据权利要求2所述的高通量测序的微生物数据处理方法,其特征在于,真实宏基因数据集包括高通量测序数据集和体内对照集。
5.根据权利要求2所述的高通量测序的微生物数据处理方法,其特征在于,步骤b)具体为:
对测序数据进行质量控制,通过Trimmomatic-0.36修剪实际测序数据以去掉低质量的碱基和读段,切断3个前导/拖尾碱基,丢弃长度小于100bp的读段。
6.根据权利要求2所述的高通量测序的微生物数据处理方法,其特征在于,模拟数据库的污染物种选自:酿酒酵母、枯草芽孢杆菌、金黄色葡萄球菌和/或大肠杆菌。
7.根据权利要求6所述的高通量测序的微生物数据处理方法,其特征在于,当采用酿酒酵母处理数据时,添加真核生物18S rRNA数据库。
8.根据权利要求6所述的高通量测序的微生物数据处理方法,其特征在于,枯草芽孢杆菌的标记包括:ftsZ、lytF、nsrR、spo0A、ygxB、yjbH和/或yjbI。
9.根据权利要求6所述的高通量测序的微生物数据处理方法,其特征在于,大肠杆菌的标记包括:acpP、casA、cof、dxs、fabB、fabF、leuO、tesA和/或uidA。
10.根据权利要求1所述的高通量测序的微生物数据处理方法,其特征在于:真实宏基因数据集包括测序结果集和体内对照集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学鄂州工业技术研究院;华中科技大学,未经华中科技大学鄂州工业技术研究院;华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811130694.5/1.html,转载请声明来源钻瓜专利网。





