[发明专利]一种基于图卷积神经网络的蛋白质自相互作用预测方法在审
申请号: | 202010638359.7 | 申请日: | 2020-07-06 |
公开(公告)号: | CN111863121A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王磊;闫欣 | 申请(专利权)人: | 枣庄学院 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B40/00 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 李桂存 |
地址: | 277132 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 神经网络 蛋白质 相互作用 预测 方法 | ||
1.一种基于图卷积神经网络的蛋白质自相互作用预测的方法,其特征在于,包括以下步骤:
a、数据集的选择与建立:利用收集自UniProt、InnateDB、BioGRID、DIP和MatrixDB数据库的蛋白质序列数据构建预测蛋白质自相互作用的数据集;
b、位置特异性评分矩阵,PSSM矩阵的构建;
c、图卷积神经网络的构建:利用深度学习的图卷积神经网络算法,将图卷积解释为概率度下嵌入函数的积分变换,通过逐层抽取的方式,将复杂的蛋白质进化信息数据转换为一系列简单的高级特征;
d、分类器模型的构建:利用随机森林算法,通过创建多个决策树的子分类器,并以集成的方式构建分类器模型。
2.根据权利要求1所述的方法,其特征在于,所述的步骤a,对得到的数据集需经过以下处理:
(1)从人类蛋白质组中删除长度大于5000或小于50个残基的蛋白质序列;
(2)被选择作为阳性样本的蛋白质数据至少满足以下条件之一:A.在UniProt中,蛋白质被定义为同寡聚体;B.至少有两篇已发表的文章报道过它们;C.至少通过两种大规模或一种小规模实验验证;
(3)阴性数据集中去除了所有已知的自相互作用蛋白质。
3.根据权利要求1所述的方法,其特征在于,所述的PSSM矩阵为,将蛋白质序列转化为N*20的矩阵,其中N代表蛋白质的残基数,20代表为20个氨基酸种类,通过使用BLAST的位置特异性PSIBLAST将每个蛋白质都转换成PSSM矩阵。
4.根据权利要求1所述的方法,其特征在于,所述的步骤c为利用图卷积神经网络提取蛋白质自相互作用拓扑图的空间特征,其具体步骤为:
从拓扑图中选择一个固定长度的节点序列;
对序列中的每个节点,收集固定大小的邻域集合;
对由当前节点及其对应的邻域构成的子图进行规范化,作为卷积结构的输入;
通过逐层的卷积池化操作逐步提取出数据中隐藏的深度特征;
利用梯度下降法最小化损失函数,对网络中的权重参数逐层反向调节,并通过多次迭代训练提高网络的精度。
5.根据权利要求1所述的方法,其特征在于,所述的步骤d,包括以下步骤:创建随机森林;基于创建的随机森林分类器进行预测;
所述的创建随机森林具体为:
(1)从全部m个特征中随机选择K个特征,其中k m;
(2)在K个特征中,用最佳分裂点计算节点d;
(3)用最佳分裂将节点分裂为子节点;
(4)重复前面三步的过程,直到获得I个数量的节点;
(5)重复第1到第4步n次创建n个树,从而形成一个森林;
所述的基于创建的随机森林分类器进行预测具体为:
(1)选取测试特征,用每个随机创建的决策树的规律去预测结果,并保存预测的结果;
(2)结算每个预测目标的得票数;
(3)将得票最多的预测目标作为随机森林算法的最终预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于枣庄学院,未经枣庄学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010638359.7/1.html,转载请声明来源钻瓜专利网。