[发明专利]一种病毒测序序列的自动化分析方法及系统有效
申请号: | 202110271331.9 | 申请日: | 2021-03-12 |
公开(公告)号: | CN112863599B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 刘健;孙嘉良;陈娇 | 申请(专利权)人: | 南开大学 |
主分类号: | G16B30/00 | 分类号: | G16B30/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 闫伟姣 |
地址: | 300071 天津*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病毒 序列 自动化 分析 方法 系统 | ||
1.一种病毒测序序列的自动化分析方法,其特征在于,包括:
对病毒测序序列经质量控制和序列组装后得到病毒基因组长序列;
对病毒基因组长序列进行编码后采用预先训练的深度学习网络模型进行类型鉴定;
整合深度学习网络模型和传统序列比对方法,使用传统序列比对方法实现病毒类型鉴定,与深度学习网络模型结合实现互补,从而提高最终鉴定精准度;
所述传统序列比对方法中,评估参考基因组序列的相似度和对齐长度,根据对齐长度与相似度的乘积得到病毒基因组长序列与参考基因组序列的序列相似度;根据参考基因组序列和参考基因组序列所属类别预测病毒测序序列的类型;
根据病毒基因组长序列与参考基因组序列的序列比对得到的序列相似度进行病毒测序序列的注释;
所述深度学习网络模型为使用卷积神经网络的多分类模型和残差网络构建的包含多个平行分支网络的多分类卷积神经网络模型;
所述多分类卷积神经网络模型中:
多个平行分支网络中存在一个分支网络的深度大于其他分支网络,在深度最深的主分支网络上增加残差连接;
在所有分支网络的顶部,使用连接层组合所有分支网络的输出,然后经过两个完全连通的全连接层,最后经softmax层输出分类结果。
2.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,所述质量控制为对病毒测序序列进行去接头和去引物序列的操作。
3.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,所述序列组装为将短序列组装成长序列,以得到病毒基因组长序列。
4.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,对病毒基因组长序列的碱基序列进行编码。
5.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,对参考基因组序列进行特征工程后构建训练集,采用训练集对深度学习网络模型进行训练。
6.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,所述类型鉴定包括:根据预先训练的深度学习网络模型对病毒测序序列进行识别,输出病毒测序序列属于每个族的概率,以概率最高的族为病毒测序序列的类型。
7.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,所述病毒测序序列的注释包括,获取序列相似度前N位的参考基因组序列,计算参考基因组序列间的遗传距离,以此构建系统发育树。
8.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,所述病毒测序序列的注释包括,获取序列相似度最高的参考基因组序列,将病毒测序序列与该参考基因组序列进行比对,根据比对结果中不同碱基的位置,判断病毒测序序列相对于参考基因组序列产生的基因变异信息。
9.如权利要求1所述的一种病毒测序序列的自动化分析方法,其特征在于,所述病毒测序序列的注释包括蛋白质功能注释,包含检索的基因名、最佳匹配的蛋白、预测的基因名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110271331.9/1.html,转载请声明来源钻瓜专利网。