[发明专利]一种基于图卷积神经网络的蛋白质自相互作用预测方法在审
申请号: | 202010638359.7 | 申请日: | 2020-07-06 |
公开(公告)号: | CN111863121A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王磊;闫欣 | 申请(专利权)人: | 枣庄学院 |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B40/00 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 李桂存 |
地址: | 277132 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 神经网络 蛋白质 相互作用 预测 方法 | ||
本发明提供一种新型的蛋白质自相互作用预测方法,涉及机器学习和生物信息学领域。具体的:通过现有的数据库筛选出蛋白质的序列等信息,并进行预处理;使用位置特异性评分矩阵的构建,将蛋白质信息转化为PSSM矩阵(N*20);再利用深度学习的图卷积神经网络算法,提取去蛋白质的高有效特征信息,极大的降低了数据维度;最后采用随机森林算法,对蛋白质自相互作用进行预测。本发明提供的方法能有效解决单一分类器计算量大,预测结果不准确的问题,将高维数据降维,并提取有效特征信息,同时保证最终预测准确。
技术领域
本发明涉及机器学习和生物信息学领域,具体涉及一种新型的蛋白质自相互作用预测方法。
背景技术
蛋白质是生物体的基本构件,几乎参与细胞内所有的生物过程。探索蛋白质的结构与功能,对于理解生命活动、疾病治疗以及新药研发具有重要意义。研究表明,蛋白质通常不单独执行功能,而是通过与其他蛋白质的相互作用来共同完成一个特定的功能。随着质谱分析、酵母双杂交、蛋白质芯片技术以及染色体免疫共沉淀等高通量生物技术的快速发展,使得蛋白质相互作用数据大量累积。如何从海量蛋白质相互作用数据中挖掘其中隐藏的生物学知识,揭示生命过程所涉及的反应通路、调控机制以及分子组成等问题正面临新的挑战。
在蛋白质相互作用中,蛋白质与自身发生相互作用(SIP)占据重要位置。证据表明蛋白质自相互作用在包括酶激活、基因表达调控、信号转导和免疫应答等重要生物学过程中发挥关键作用。例如,Pereira-Leal等人通过对大规模生物蛋白质复合物起源和进化分析发现,许多蛋白质复合物的进化最初是由自身的相互作用建立起来的。Ispolatov等人发现蛋白质相互作用网络中存在大量的自相互作用蛋白质,其在细胞系统中发挥重要作用。此外,自相互作用蛋白质能够在不增加基因组大小的情况下,通过自身的相互作用来调节蛋白质功能,从而扩展它们的功能多样性。
发明内容
本发明提供一种新型的基于图卷积神经网络的蛋白质自相互作用预测的方法。
一种基于图卷积神经网络的蛋白质自相互作用预测的方法,包括以下步骤:
a、数据集的选择与建立:利用收集自UniProt、InnateDB、BioGRID、DIP和MatrixDB数据库的蛋白质序列数据构建预测蛋白质自相互作用的数据集;
b、位置特异性评分矩阵,PSSM矩阵的构建;
c、图卷积神经网络的构建:利用深度学习的图卷积神经网络算法,将图卷积解释为概率度下嵌入函数的积分变换,通过逐层抽取的方式,将复杂的蛋白质进化信息数据转换为一系列简单的高级特征;
d、分类器模型的构建:利用随机森林算法,通过创建多个决策树的子分类器,并以集成的方式构建分类器模型。
其中,所述的步骤a,对得到的数据集需经过以下处理:
(1)从人类蛋白质组中删除长度大于5000或小于50个残基的蛋白质序列;
(2)被选择作为阳性样本的蛋白质数据至少满足以下条件之一:A.在UniProt中,蛋白质被定义为同寡聚体;B.至少有两篇已发表的文章报道过它们;C.至少通过两种大规模或一种小规模实验验证;
(3)阴性数据集中去除了所有已知的自相互作用蛋白质。
其中,所述的PSSM矩阵为,将蛋白质序列转化为N*20的矩阵,其中N代表蛋白质的残基数,20代表为20个氨基酸种类,通过使用BLAST的位置特异性PSIBLAST将每个蛋白质都转换成PSSM矩阵。
其中,所述的步骤c为利用图卷积神经网络提取蛋白质自相互作用拓扑图的空间特征,其具体步骤为:
(1)从拓扑图中选择一个固定长度的节点序列;
(2)对序列中的每个节点,收集固定大小的邻域集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于枣庄学院,未经枣庄学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010638359.7/2.html,转载请声明来源钻瓜专利网。