[发明专利]一种基于图神经网络的单序列蛋白质接触图预测方法在审
申请号: | 202210950286.4 | 申请日: | 2022-08-09 |
公开(公告)号: | CN115312118A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 欧阳建权;唐欢容;高涌露 | 申请(专利权)人: | 湘潭大学 |
主分类号: | G16B15/20 | 分类号: | G16B15/20;G16B30/00;G16B40/00;G06N3/04 |
代理公司: | 北京卓恒知识产权代理事务所(特殊普通合伙) 11394 | 代理人: | 徐楼 |
地址: | 41020*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 序列 蛋白质 接触 预测 方法 | ||
1.基于图神经网络的单序列蛋白质接触图预测方法,其特征在于,包括以下步骤:
S1收集蛋白质序列,并在PDB数据库中收集对应的蛋白质三维结构数据,构建残基间接触矩阵;
S2对所述的每个蛋白质序列进行one-hot编码处理,得到one-hot一维特征;
S3将所述的每个蛋白质序列通过预训练模型得到一维蛋白质编码特征和二维注意力矩阵特征;
S4构建图卷积编码模型和卷积解码模型;
S5将所述的one-hot一维特征和通过预训练得到的一维蛋白质编码特征作为输入特征输入到图卷积编码模型中,得到蛋白质结构特征;将所述的蛋白质结构特征和通过预训练得到的二维注意力矩阵输入到卷积解码模型预测蛋白质残基接触矩阵。
2.根据权利要求1所述的基于图神经网络的单序列蛋白质接触图预测方法,其特征在于,步骤S1实现如下:
S1.1收集ProteinNet数据集中序列同源性为95%的蛋白质序列数据集,共93054个蛋白质;
S1.2从ProteinNet数据集中随机分离出100个蛋白质,将所有的蛋白质序列与这100个蛋白质序列进行HHsearch搜索,其中任何与这100个验证蛋白质截止值小于0.1的蛋白质都删除,再删除序列长度超过500的蛋白质,最后从中筛选出共34578个蛋白质;
S1.3从PDB数据库中下载蛋白质三维结构数据,从所述的蛋白质三维结构数据提取出目标蛋白质的残基对接触矩阵;
S1.4构建残基间接触矩阵:通过将目标蛋白质三维结构数据提取出每个残基的三维坐标,计算每个残基之间的三维距离,其中残基对之间距离小于则认为是相互接触的,用1来表示,反之就是不接触,用0表示;假设蛋白质序列长度为L,则通过计算的到一个维度为L*L的接触矩阵。
3.根据权利要求1所述的基于图深度学习的单序列蛋白质接触预测方法,其特征在于,步骤S3中所述的预训练模型是Esm-1b;将所述的每个蛋白质序列通过Esm-1b获得维度为L*1280的一维蛋白质编码特征和维度为L*L*20的二维注意力矩阵,其中L是指目标蛋白质所含的蛋白质氨基酸数目。
4.根据权利要求1所述的基于图深度学习的单序列蛋白质接触预测方法,其特征在于,步骤S4中所述的图卷积编码模型和卷积解码模型都是由一系列的图卷积模型组成。
5.根据权利要求4所述的基于图深度学习的单序列蛋白质接触预测方法,其特征在于,所述的图卷积模型是由两层图卷积层和批归一化层和Relu激活层组成;所述的图卷积层可以表示为:
其中A表示邻接矩阵,W表示网络权重,Hl表示第l层的节点信息,表示Relu激活函数。
6.根据权利要求5所述的基于图深度学习的单序列蛋白质接触预测方法,其特征在于,所述的Relu激活函数可以表示为:
7.根据权利要求1所述的基于图深度学习的单序列蛋白质接触预测方法,其特征在于,步骤S4中所述的卷积解码模型是由ResNet模块和多层感知器组成。
8.根据权利要求7所述的基于图深度学习的单序列蛋白质接触预测方法,其特征在于,所述的ResNet模块是由5个卷积层组成,每个卷积层之间都有批处理归一化层和Relu激活层。
9.根据权利要求7所述的基于图深度学习的单序列蛋白质接触预测方法,其特征在于,所述的多层感知器由多个全连接层组成,每个卷积层中加入Droout层,并加入了残差操作。
10.根据权利要求1-9所述的基于图深度学习的单序列蛋白质接触预测方法,其特征在于,步骤S5实现如下:
S5.1将所述的one-hot一维特征与所述的一维蛋白质编码特征拼接在一起,凑成维度的为L*1300的一维特征;
S5.2所述的将维度的为L*1300的一维特征输入到所述的图卷积编码模型中,输出一个维度为L*420的图结构特征;
S5.3将所述的维度为L*420的图结构特征进行拼接得到一个维度为L*L*420的二维矩阵;
S5.4将所述的维度为L*L*420的二维矩阵与所述的预训练得到的注意力矩阵拼接在一起得到一个维度为L*L*440的二维矩阵;
S5.5将所述的维度为L*L*440的二维矩阵输入到卷积解码模型中,分别得到三种不同的残基对接触预测方法矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210950286.4/1.html,转载请声明来源钻瓜专利网。