[发明专利]基于几何图神经网络的蛋白质信号肽的预测方法及装置有效
申请号: | 202011177674.0 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112002378B | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 华权高;舒芹;赵愿安 | 申请(专利权)人: | 武汉金开瑞生物工程有限公司 |
主分类号: | G16B40/10 | 分类号: | G16B40/10;G16B15/00;G16B30/00 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙) 42242 | 代理人: | 王振宇 |
地址: | 430000 湖北省武汉市东湖开发区高新大道*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 几何 神经网络 蛋白质 信号肽 预测 方法 装置 | ||
本发明涉及一种基于几何图神经网络的蛋白质信号肽的预测方法及装置,其方法包括:获取数据集中的蛋白质序列,提取其中信号肽的字符序列;对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;根据所述字符序列和所述多维向量构建信号肽的特征图;将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测信号肽。本发明结合几何图神经网络和字符序列,在保留了特征提取的原始信息同时,减少了模型过拟合,提高了信号肽预测的准确率。
技术领域
本发明涉及生物信息和深度学习领域,尤其涉及一种基于几何图神经网络的蛋白质信号肽的预测方法及装置。
背景技术
在生物体内,大部分的蛋白质不是以单体的形式行使功能,而是以相互作用的形式行使不同的生物功能。其中,蛋白质相互作用(Protein-Protein Interaction,PPI)是指由两个或两个以上的分子蛋白通过共价键的形式形成蛋白质复合体的过程。蛋白质相互作用在大多数生化功能中承担着重要的角色。例如,信号分子由蛋白质相互作用,将细胞外的信号传入细胞内部,而信号传递是许多功能发挥的基础。对于蛋白质相互作用,从本质上来讲,其是通过蛋白质上部分残基的相互结合来实现的,这些残基被称为蛋白质相互作用位点(Protein-Protein Interaction Sites,PPIS)。
信号肽位于分泌蛋白的N端,当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。信号肽作为一种短氨基酸序列,其大小大约16-30个氨基酸,引导蛋白质在膜间进行转移,进而将蛋白质运输到目标位置。
现有预测蛋白质信号肽及其切割位点的方法包括基于监督模型、基于生成式模型和基于同源性序列比对的方法。但这些方法或容易发生过拟合现象或不能很好地处理较长的氨基酸序列或无法准确识别切割位点。
发明内容
本发明针对现有中预测蛋白质信号肽的方法中存在的过拟合和无法准确识别切割位点的问题,在本发明的第一方面提供了一种基于几何图神经网络的蛋白质信号肽的预测方法,包括如下步骤:获取数据集中的蛋白质序列,提取其中信号肽的字符序列;对所述信号肽进行特征提取,得到所述信号肽的序列进化特征、物理化学特征、结构特征、统计特征;将进化特征、物理化学特征、结构特征、统计特征进行融合,得到多维向量;根据所述字符序列和所述多维向量构建信号肽的特征图;将所述特征图作为几何图神经网络模型的输入,训练所述几何图神经网络直至其误差低于阈值,保存所述几何图神经网络模型并将其用于预测待预测氨基酸序列中是否含有信号肽片段。
在本发明的一些实施例中,所述信号肽的字符序列表示为:
,
其中,
为了提高预测的准确率,更全面的表征信号肽的物理化学性质、空间结构、统计等特征,在本发明的一些实施例中,所述序列进化特征、结构特征、统计特征分别为PSSM特征、PSAIA特征、HMM特征。
在本发明的一些实施例中,所述几何图神经网络包括低聚合层、高聚合层、非线性变换层,所述低聚合层用于聚合节点在一种关系下的邻居信息;所述高聚合层用于聚合所述低聚合层的邻居信息;所述非线性变化层用于拼接所述低聚合层与所述高聚合层所述的邻居信息。进一步的,所述几何图神经网络模型的表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉金开瑞生物工程有限公司,未经武汉金开瑞生物工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011177674.0/2.html,转载请声明来源钻瓜专利网。