[发明专利]一种融合多数据特征预测关键蛋白质的计算方法有效
申请号: | 201810958860.4 | 申请日: | 2018-08-22 |
公开(公告)号: | CN109166604B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 张伟;徐佳 | 申请(专利权)人: | 华东交通大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30 |
代理公司: | 南昌华成联合知识产权代理事务所(普通合伙) 36126 | 代理人: | 黄晶 |
地址: | 330013 江西省*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种融合多数据源预测关键蛋白质的计算方法。该方法通过分析关键蛋白质所体现的聚集性、共表达性、功能相似性、位置一致性的特征,有效融合蛋白质相互作用网络的边聚类系数、基因表达值的皮尔逊相关系数、基因本体术语的语义相似性指数以及蛋白质亚细胞定位统计特征。本发明方法简单易用,输入蛋白质相互作用关系数据、基因表达谱数据、基因本体术语信息数据以及蛋白质亚细胞定位数据信息这四种数据,经测试验证,和已有方法相比本发明提出的方法可以显著提高蛋白质相互作用网络中关键蛋白的预测精度和效率。 | ||
搜索关键词: | 一种 融合 多数 特征 预测 关键 蛋白质 计算方法 | ||
【主权项】:
1.一种融合多数据特征预测关键蛋白质的计算方法,包括如下步骤:步骤1:基于已有蛋白质相互作用关系数据,构建蛋白质相互作用关系的邻接矩阵,采用以下的边聚类系数公式计算连边(u,v)的聚类系数:
其中du和dv分别为节点u和v的度,
表示由边(u,v)构成的在这个网络中三个节点相连组成三角形个数;步骤2:根据基因时序表达数据计算基因之间的表达相关性,具体采用皮尔逊相关系数公式计算每对蛋白质相互作用关系下对应的基因对之间两基因之间的表达相关性,一对基因X和Y之间的表达相关性计算皮尔逊相关系数定义如下:
其中n是基因表达值数据的样本数目;Xi是第i个基因的表达水平,std(X)表示X的标准差;步骤3:基于下载酵母基因本体术语注释信息数据,找出蛋白质相互作用关系数据中每个蛋白质u对应的基因本体术语的编号信息(GO‑id(u)),这样每一对相互作用的两个蛋白质(u,v)对应的一对基因本体术语在生物过程信息下的编号(GO‑id(u),GO‑id(v));采用统计软件R中工具箱GOSim来计算蛋白质相互作用关系数据对应的基因本体术语在生物过程下的相似度GOsim(u,v);步骤4:基于下载的酵母蛋白质亚细胞定位数据,将11种亚细胞定位分别用1到11这些数字分别表示,每个蛋白质u的亚细胞定位信息为SL(u)∈{1,2,…11,0},其中0表示该蛋白质没有被任何一个亚细胞定位注释;统计已知的关键蛋白质对应的亚细胞定位数据,计算关键蛋白质中被一种亚细胞定位注释的个数和占整个已知关键蛋白质组的比例,得到每个亚细胞位置出现关键蛋白质的概率SLI(i),i=1,2,…,11;然后计算测试蛋白质相互作用网络中蛋白质u的亚细胞定位关键性
即该蛋白质被注释的所有亚细胞定位出现关键蛋白质概率之和;另外,基于测试的酵母蛋白质相互作用网络数据,统计网络中每条连边(u,v)对应蛋白质u,v的亚细胞定位信息SL(u),SL(v)并计算其交集中元素个数
步骤5:基于上述步骤中计算得到的边聚类系数、共表达相关性、功能相似性、蛋白质亚细胞定位统计特征,定义新的识别关键蛋白质的方法TEGS如下,对于蛋白质相互作用网络中的蛋白u,TEGS(u)的计算公式如下:
其中N(u)表示节点u的所有邻居节点集合,α为[0,1]之间的常数。步骤6:将上述计算得到的每个蛋白质的TEGS值进行由大到小排序,TEGS值越大排序越靠前的蛋白质是关键蛋白质的概率越大。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810958860.4/,转载请声明来源钻瓜专利网。