[发明专利]一种病毒测序序列的自动化分析方法及系统有效
申请号: | 202110271331.9 | 申请日: | 2021-03-12 |
公开(公告)号: | CN112863599B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 刘健;孙嘉良;陈娇 | 申请(专利权)人: | 南开大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫伟姣 |
地址: | 300071 天津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病毒 序列 自动化 分析 方法 系统 | ||
本发明公开一种病毒测序序列的自动化分析方法及系统,包括:对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。针对大量增长的病毒测序数据量以及硬盘空间被大量占用的问题,本发明引入深度学习构建鉴定模型,在实现病毒类型鉴定的同时,提供病毒注释功能。
技术领域
本发明涉及基因测序分析技术领域,特别是涉及一种病毒测序序列的自动化分析方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在过去二十年里已经出现了多种对人类有大规模杀伤力的新种类病毒,如重症急性呼吸综合征SARS、甲型流感病毒H1N1、中东呼吸综合征MERS、埃博拉病毒等病毒,但是目前对于病毒鉴定的研究尚且不足。现有的病毒鉴定工具通常基于BLAST与基因组数据库或者蛋白质数据库比对来鉴定,但是随着病毒数据成倍甚至指数级的增长,这种方法的速度处理逐渐变慢,所以面对大量增长的病毒测序数据的数量,现有方法已不能满足病毒鉴定需求;另外,由于病毒测序数据量的快速增长,基于序列比对方法所用到的数据库的存储也要占用越来越多的硬盘空间。
发明内容
为了解决上述问题,本发明提出了一种病毒测序序列的自动化分析方法及系统,针对大量增长的病毒测序数据量以及硬盘空间被大量占用的问题,本发明引入深度学习构建鉴定模型,在实现病毒类型鉴定的同时,提供病毒注释功能。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种病毒测序序列的自动化分析方法,包括:
对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;
对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;
根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。
第二方面,本发明提供一种病毒测序序列的自动化分析系统,包括:
数据预处理模块,被配置为对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;
鉴定模块,被配置为对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;
注释模块,被配置为根据病毒基因组长序列与参考基因组的序列比对进行病毒测序序列的注释。
第三方面,本发明提供一种计算机可读指令,所述计算机可读指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
针对单物种测序序列的物种识别鉴定问题,本发明提出一种基于深度学习的多分类分类器,面对大量增长的病毒测序数据的数量,引入深度学习方法对病毒进行种类鉴定,相比于传统的需要与大量病毒基因组进行比对的鉴定方法来说,本发明能够大大提升鉴定速度。
本发明利用深度学习方法训练得到的鉴定模型,能够代替大量占用硬盘空间的病毒数据库,使得需要占用的硬盘空间明显变少。
本发明通过深度学习除了实现对病毒种类的鉴定外,还同时提供病毒注释功能,实现了进化树分析、溯源预测功能、变异检测和蛋白质功能注释几种注释功能。
本发明引入深度学习的鉴定和分类方法的速度不会随着现实数据库中的数据的增多而明显变慢,将病毒数据特征进行抽象出来,解决现有方法所基于的数据库要占用大量硬盘空间的问题,明显提高病毒鉴定的分析效率。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110271331.9/2.html,转载请声明来源钻瓜专利网。