[发明专利]一种蛋白质相互作用预测方法有效
| 申请号: | 202011172472.7 | 申请日: | 2020-10-28 |
| 公开(公告)号: | CN112259157B | 公开(公告)日: | 2023-10-03 |
| 发明(设计)人: | 黄剑平;李达 | 申请(专利权)人: | 杭州师范大学 |
| 主分类号: | G16B5/00 | 分类号: | G16B5/00;G16B15/30;G16B25/10 |
| 代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
| 地址: | 311121 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 蛋白质 相互作用 预测 方法 | ||
1.一种基于融合生物语义的非相互作用蛋白质对的采样策略的蛋白质相互作用预测方法,其特征在于,包括步骤:
(A)根据PPIs数据集构建PPIs网络,获得PPIs网络的补集作为NIPs集合;
(B)基于基因本体术语,计算蛋白质对的最大生物学语义相似度;
(C)根据步骤(B)的计算方法从NIPs集合选取出不同分子功能、不同生物学进程、不同细胞成分的三种NIPs子集;
(D)将所述三种NIPs子集组合获得一个融合生物语义的NIPs数据集;
(E)将所述PPIs数据集与融合生物语义的NIPs数据集作为蛋白质相互作用预测模型的正负样本数据集;
(F)将所述蛋白质相互作用预测模型的数据集划分为训练集和测试集;
(G)基于所述训练集,将蛋白质序列信息用嵌入向量表示,再使用循环卷积神经网络模型进行训练,建立预测模型;
(H)基于所述预测模型对所述测试集进行预测;通过输入一对蛋白质的氨基酸序列信息,预测是否会发生相互作用。
2.根据权利要求1所述的蛋白质相互作用预测方法,其特征在于,步骤(A)中,所述PPIs网络的边为蛋白质对相互作用,所述PPIs网络的补集网络的边为未发现相互作用的蛋白质对。
3.根据权利要求1所述的蛋白质相互作用预测方法,其特征在于,所述步骤(B)通过查询一对蛋白质对中的两个蛋白质在Uniprot数据库中的GO术语注释列表,然后使用GO术语语义相似度计算方法对两个GO术语注释列表中的GO术语两两之间进行GO术语语义相似性的度量获得相似度列表,并获得其中最大的语义相似度。
4.根据权利要求3所述的蛋白质相互作用预测方法,其特征在于,步骤(C)中,从NIPs集合中随机选取M对蛋白质对,根据步骤(B)描述的方法计算这些蛋白质对的分子功能的GO术语的最大相似度列表,并从小到大进行排序,选取前n对蛋白质对,即生物功能最不相似的前n对作为不同分子功能的NIPs子集;重复两次随机选取M对蛋白质对,按同样方法分别选取出不同生物进程的和不同细胞成分的且大小均为n的NIPs子集;
每种NIPs子集中蛋白质对数量n等于PPIs数据集中蛋白质对数量n0。
5.根据权利要求4所述的蛋白质相互作用预测方法,其特征在于,M>10n0。
6.根据权利要求4或5所述的蛋白质相互作用预测方法,其特征在于,步骤(D)中,按1:1:1的比例或者尽可能接近1:1:1的比例分别从所述三种NIPs子集中随机选取蛋白质对组合获得一个融合生物语义的NIPs数据集,该数据集大小与PPIs数据集相同。
7.根据权利要求6所述的蛋白质相互作用预测方法,其特征在于,步骤(E)中,所述蛋白质相互作用预测模型的数据集中,每一个样本都由一对蛋白质组成,其中独立变量为两个蛋白质的氨基酸序列信息,而因变量为蛋白质对之间的相互作用关系,具体步骤如下:
(1)因变量的取值判断如下:如果一对蛋白质之间存在着已知的相互作用关系,那么对应的因变量值为阳性;如果一对蛋白质之间未发现存在相互作用关系,对应的因变量值为阴性;
(2)使用PPIs数据集中的蛋白质对构成阳性样本,而阴性样本则使用所述融合生物语义的NIPs数据集中的蛋白质对,并使阳性样本和阴性样本的数据比例保持为1:1。
8.根据权利要求7所述的蛋白质相互作用预测方法,其特征在于,步骤(F)中,将所述蛋白质相互作用预测模型的数据集中所有蛋白质对按4:1比例随机划分为训练集和测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011172472.7/1.html,转载请声明来源钻瓜专利网。





