[发明专利]从全转录基因组数据中挖掘微生物数据的方法在审

专利信息
申请号: 202310162262.7 申请日: 2023-02-24
公开(公告)号: CN116110497A 公开(公告)日: 2023-05-12
发明(设计)人: 张磊;靳传娣;生大双;岳凯乐;薛鑫鑫;梁益嘉;岳敏;李平福 申请(专利权)人: 张磊
主分类号: G16B20/30 分类号: G16B20/30
代理公司: 济南日新专利代理事务所(普通合伙) 37224 代理人: 杨亚男
地址: 250003 山东省济南*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 转录 基因组 数据 挖掘 微生物 方法
【权利要求书】:

1.从全转录基因组数据中挖掘微生物数据的方法,其特征在于,所述方法包括以下步骤:

步骤1.提取原始测序数据中的非人序列并对其进行质量控制;

步骤2.微生物比对及微生物序列过滤:使用kraken2构建标准微生物参考数据库,使用kraken2将步骤1提取的序列与参考数据库进行比对,获得序列的注释信息;基于序列的注释信息将未比对至微生物的序列进行过滤去除,进一步获取微生物序列和微生物物种丰度;

步骤3.微生物基因和功能分析:根据获得的微生物序列生成非冗余基因集,基于非冗余基因集,获得样本的微生物基因丰度表和功能丰度表。

2.根据权利要求1所述的方法,其特征在于,步骤1中,基于转录组/基因组测序数据的BAM文件中的注释信息,使用SAMtools提取文件中未比对至人类参考基因组的序列,使用bedools(v2.30.0)将BAM文件转换成FASTQ格式的文件。

3.根据权利要求2所述的方法,其特征在于,使用FastQC和MultiQC对FASTQ文件进行质量评估后,用Trimmomatic对非人序列去除引物并进行滑窗质量过滤,切掉碱基质量平均值低于20的滑窗。

4.根据权利要求1所述的方法,其特征在于,在步骤2中,所述注释信息包括三个文件:

1)Standard Kraken Output文件:包括每条序列的ID、是否比对至参考数据库、用于标记序列的Kraken 2分类ID、序列长度信息及序列的比对信息;

2)Sample Report Output文件:含有序列比对结果的详细信息,包括比对的等级代码、NCBI的分类ID号及学名;

3)比对至参考数据库的序列的FASTQ文件,该部分每条序列的序列名后都带有比对至物种的NCBI分类ID号;

基于获得的FASTQ文件的分类ID号,使用linux的文本处理功能进一步过滤掉比对至人类基因组的序列,即得微生物序列。

5.根据权利要求4所述的方法,其特征在于,基于Sample Report Output文件所得比对结果,使用Bracken对其进行定量,获得样本在界、门、纲、目、科、属、种七个水平的微生物物种丰度数据。

6.根据权利要求5所述的方法,其特征在于,使用Bracken对所得比对结果进行定量后,采用“decontam”R包的“isContaminant”函数对微生物比对结果进行去污。

7.根据权利要求1所述的方法,其特征在于,步骤3中,根据步骤2中获得的微生物序列,使用MEGAHIT将获得的微生物序列组装成contig;使用Prodigal预测contig中的蛋白编码基因;用CD-HIT生成非冗余基因集;基于非冗余基因集,利用salmon估计样本的基因丰度;使用eggNOG-mapper和diamond对非冗余基因集进行功能注释,从而获得样本的微生物基因丰度表和功能丰度表。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于张磊,未经张磊许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310162262.7/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top