[发明专利]一种基于图卷积神经网络的蛋白质自相互作用预测方法在审

专利信息
申请号: 202010638359.7 申请日: 2020-07-06
公开(公告)号: CN111863121A 公开(公告)日: 2020-10-30
发明(设计)人: 王磊;闫欣 申请(专利权)人: 枣庄学院
主分类号: G16B15/30 分类号: G16B15/30;G16B40/00
代理公司: 济南泉城专利商标事务所 37218 代理人: 李桂存
地址: 277132 *** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 图卷 神经网络 蛋白质 相互作用 预测 方法
【权利要求书】:

1.一种基于图卷积神经网络的蛋白质自相互作用预测的方法,其特征在于,包括以下步骤:

a、数据集的选择与建立:利用收集自UniProt、InnateDB、BioGRID、DIP和MatrixDB数据库的蛋白质序列数据构建预测蛋白质自相互作用的数据集;

b、位置特异性评分矩阵,PSSM矩阵的构建;

c、图卷积神经网络的构建:利用深度学习的图卷积神经网络算法,将图卷积解释为概率度下嵌入函数的积分变换,通过逐层抽取的方式,将复杂的蛋白质进化信息数据转换为一系列简单的高级特征;

d、分类器模型的构建:利用随机森林算法,通过创建多个决策树的子分类器,并以集成的方式构建分类器模型。

2.根据权利要求1所述的方法,其特征在于,所述的步骤a,对得到的数据集需经过以下处理:

(1)从人类蛋白质组中删除长度大于5000或小于50个残基的蛋白质序列;

(2)被选择作为阳性样本的蛋白质数据至少满足以下条件之一:A.在UniProt中,蛋白质被定义为同寡聚体;B.至少有两篇已发表的文章报道过它们;C.至少通过两种大规模或一种小规模实验验证;

(3)阴性数据集中去除了所有已知的自相互作用蛋白质。

3.根据权利要求1所述的方法,其特征在于,所述的PSSM矩阵为,将蛋白质序列转化为N*20的矩阵,其中N代表蛋白质的残基数,20代表为20个氨基酸种类,通过使用BLAST的位置特异性PSIBLAST将每个蛋白质都转换成PSSM矩阵。

4.根据权利要求1所述的方法,其特征在于,所述的步骤c为利用图卷积神经网络提取蛋白质自相互作用拓扑图的空间特征,其具体步骤为:

从拓扑图中选择一个固定长度的节点序列;

对序列中的每个节点,收集固定大小的邻域集合;

对由当前节点及其对应的邻域构成的子图进行规范化,作为卷积结构的输入;

通过逐层的卷积池化操作逐步提取出数据中隐藏的深度特征;

利用梯度下降法最小化损失函数,对网络中的权重参数逐层反向调节,并通过多次迭代训练提高网络的精度。

5.根据权利要求1所述的方法,其特征在于,所述的步骤d,包括以下步骤:创建随机森林;基于创建的随机森林分类器进行预测;

所述的创建随机森林具体为:

(1)从全部m个特征中随机选择K个特征,其中k m;

(2)在K个特征中,用最佳分裂点计算节点d;

(3)用最佳分裂将节点分裂为子节点;

(4)重复前面三步的过程,直到获得I个数量的节点;

(5)重复第1到第4步n次创建n个树,从而形成一个森林;

所述的基于创建的随机森林分类器进行预测具体为:

(1)选取测试特征,用每个随机创建的决策树的规律去预测结果,并保存预测的结果;

(2)结算每个预测目标的得票数;

(3)将得票最多的预测目标作为随机森林算法的最终预测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于枣庄学院,未经枣庄学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010638359.7/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top