[发明专利]从全转录基因组数据中挖掘微生物数据的方法在审
申请号: | 202310162262.7 | 申请日: | 2023-02-24 |
公开(公告)号: | CN116110497A | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 张磊;靳传娣;生大双;岳凯乐;薛鑫鑫;梁益嘉;岳敏;李平福 | 申请(专利权)人: | 张磊 |
主分类号: | G16B20/30 | 分类号: | G16B20/30 |
代理公司: | 济南日新专利代理事务所(普通合伙) 37224 | 代理人: | 杨亚男 |
地址: | 250003 山东省济南*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 转录 基因组 数据 挖掘 微生物 方法 | ||
本发明涉及微生物组学技术领域,具体涉及一种从全转录基因组数据中挖掘微生物数据的方法。所述方法包括以下步骤:步骤1.提取原始测序数据中的非人序列并对其进行质量控制;步骤2.微生物比对及微生物序列过滤:使用kraken2构建标准微生物参考数据库,使用kraken2将步骤1提取的序列与参考数据库进行比对,获得序列的注释信息;基于序列的注释信息将未比对至微生物的序列进行过滤去除,进一步获取微生物序列和微生物物种丰度;步骤3.微生物基因和功能分析。本发明提供了一种更为标准、可靠、完整的从全转录基因组数据中挖掘微生物数据的方法。
技术领域
本发明涉及微生物组学技术领域,具体涉及一种从全转录基因组数据中挖掘微生物数据的方法。
背景技术
微生物组学是指对微生物群体进行高通量测序,通过分析测序序列的构成以分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境中微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定微生物功能基因。肿瘤内微生物是近年来备受关注的新兴领域,目前与该领域相关的技术存在以下缺陷和不足:
1.目前肿瘤组织的宏基因组和宏转录组数据有限,且大多为小样本研究,如果想对瘤内微生物进行大规模研究需要进行大规模的测序,耗时费力。之前的研究积攒了大量的肿瘤和癌旁正常样本的全转录组和全基因组数据,尤其是癌症基因组图谱(TCGA)项目收集了来自33种肿瘤的1万多份样本,并进行了全转录组和全基因组测序和持续更新。
2.现有从全转录组和全基因组数据中挖掘微生物数据的研究仅对原始测序数据进行简单的过滤和比对,缺少对原始序列和比对结果的质量控制及对微生物基因和功能的分析。
发明内容
本发明主要目的是提供一种从全转录基因组数据中挖掘微生物数据的方法。本发明通过对序列质量控制、比对结果的去污及微生物基因和功能分析,形成了一种更为标准、可靠、完整的从全转录基因组数据中挖掘微生物数据的方法。
为实现上述目的,本发明采用以下技术方案:
本发明提供一种从全转录基因组数据中挖掘微生物数据的方法,所述方法包括以下步骤:
步骤1.提取原始测序数据中的非人序列并对其进行质量控制;
步骤2.微生物比对及微生物序列过滤:使用kraken2构建标准微生物参考数据库,使用kraken2将步骤1提取的序列与参考数据库进行比对,获得序列的注释信息;基于序列的注释信息将未比对至微生物的序列进行过滤去除,进一步获取微生物序列和微生物物种丰度;
步骤3.微生物基因和功能分析:根据获得的微生物序列生成非冗余基因集,基于非冗余基因集,获得样本的微生物基因丰度表和功能丰度表。
以上所述参考数据库为非冗余数据库,包括人类、真菌、细菌、病毒和古菌基因组。
进一步地,步骤1中,基于转录组/基因组测序数据的BAM文件中的注释信息,使用SAMtools提取文件中未比对至人类参考基因组的序列,使用bedools(v2.30.0)将BAM文件转换成FASTQ格式的文件。
更进一步地,使用FastQC和MultiQC对FASTQ文件进行质量评估后,用Trimmomatic对非人序列去除引物并进行滑窗质量过滤,切掉碱基质量平均值低于20的滑窗。
进一步地,在步骤2中,所述注释信息包括三个文件:
1)Standard Kraken Output文件:包括每条序列的ID、是否比对至参考数据库、用于标记序列的Kraken 2分类ID、序列长度信息及序列的比对信息;
2)Sample Report Output文件:含有序列比对结果的详细信息,包括比对的等级代码、NCBI的分类ID号及学名;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张磊,未经张磊许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310162262.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置