[发明专利]采用改进花授粉算法识别关键蛋白质的方法有效
申请号: | 201711039345.8 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107885971B | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 雷秀娟;方铭;代才 | 申请(专利权)人: | 陕西师范大学 |
主分类号: | G16B15/20 | 分类号: | G16B15/20;G16B25/10;G16B5/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 强宏超 |
地址: | 710062 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种采用改进花授粉算法识别关键蛋白质的方法,将蛋白质相互作用网络转化为无向图、选取度最大的前Q个蛋白质作为花粉个体、度量PeC中心性、确定复合物信息、确定亚细胞定位信息,评价花粉重要性、更新花粉位置、输出识别的关键蛋白质;本发明在评价花粉重要性时不仅考虑了蛋白质网络的拓扑属性,而且融合了蛋白质网络的生物特性,能准确地识别关键蛋白;仿真实验结果表明,正确率、特异性、敏感度等指标性能较优;与其他关键蛋白识别方法相比,结合蛋白质网络的拓扑属性和生物特性,实现关键蛋白质识别过程,提高了关键蛋白的识别准确率。 | ||
搜索关键词: | 采用 改进 授粉 算法 识别 关键 蛋白质 方法 | ||
【主权项】:
采用改进花授粉算法识别关键蛋白质的方法,其特征在于,包括以下步骤:(1)将蛋白质相互作用网络转化为无向图将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,wij表示结点vi与结点vj之间的连接情况,若结点vi与结点vj相连,则wij=1,若vi与vj之间没有边,则wij=0,i=1,2,Λ,n,j=1,2,Λ,n;(2)选取度最大的前Q个蛋白质作为花粉个体结点的度DC即与该结点直接相连的邻居结点的个数,计算所有结点的度并按降序排序,选取前Q个作为初始的花粉个体,按式(1)计算结点i的度:DC(i)=∑iedge(i,v) 式(1)式中,结点v表示与结点i直接相连的结点;(3)度量PeC中心性计算边聚集系数:边聚集系数ECC刻画了边(i,j)的两个结点i和j的亲疏程度,按式(2)计算边(i,j)的边聚集系数:式中,Ni和Nj分别表示结点i和结点j的邻居结点的集合,di和dj分别表示结点i和结点j的度,ECC的取值越大,表明结点i和j属于同一个簇的可能性越大;计算蛋白质间的皮尔逊相关系数:基因表达数据用来表示蛋白质生命运动的过程,利用皮尔逊相关系数PCC计算相互作用的蛋白质的基因共表达的强弱程度,按式(3)计算皮尔逊相关系数:式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;(4)确定复合物信息出现在蛋白质复合物中的蛋白质更可能是关键蛋白质,整合两个蛋白质复合物数据集CM270和CM425,去除重复的复合物,得到一个复合物数据集;判断一个蛋白质结点出现在几个复合物中即为此蛋白质结点的复合物得分pc,如果一个蛋白质不属于任何一个已知的蛋白质复合物,则其复合物得分pc为0,如果一个蛋白质存在于已知的蛋白质复合物中,则其复合物得分pc为相应存在于已知蛋白质复合物中的次数;(5)确定亚细胞定位信息亚细胞定位指细胞中某种蛋白质出现的具体位置,关键蛋白质在某些亚细胞位置出现的较多;对从亚细胞定位数据库中下载的亚细胞定位数据进行预处理,去除重复的数据,得到所需的包含11个亚细胞位置的数据;把预处理得到的11个位置的亚细胞定位数据集R与关键蛋白质标准数据集进行比对得到他们的关系数据集S,则相应的每一个具体位置的关系数据集为Sr,如果给定一个蛋白质,它出现在数据集R中,则11个亚细胞位置中的每一个具体位置出现的频率Sr/length(S)即为每个位置对应的得分Fi(r);按式(4)计算此蛋白质的亚细胞定位得分:SL(i)=∑C(i)Fi(r) 式(4)式中,C(i)表示蛋白质i在数据集R中所对应的亚细胞位置集合,一个蛋白质可能在多个亚细胞位置中的出现;(6)评价花粉重要性首先,关键蛋白质大多出现在同一簇中且倾向于共表达,pc(i,j)利用边聚集系数ECC和皮尔逊相关系数PCC分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响,pc(i,j)为边(i,j)出现在同一簇中的概率,将pc(i,j)看作边(i,j)的权值,则对于一个蛋白质结点i,计算结点i的连接边的权值之和PeC(i);然后,结合蛋白质复合物得分和亚细胞定位得分;最后,计算出每一个蛋白质结点的得分,即得到每一个蛋白质结点的重要程度,且一个花粉由Q个蛋白质结点组成,进而对花粉个体的重要性GSC进行评价;(7)更新花粉位置在全局授粉中,花粉不仅向全局最优解移动,而且自身在全局范围内随机搜索,更新花粉在全局授粉中的位置;在局部授粉中,花粉的位置保持不变,更新花粉在局部授粉中的位置;(8)输出识别的关键蛋白质花粉经过全局授粉和局部授粉找到当前最优解之后,若迭代次数小于最大迭代次数Maxiter,转向步骤(7);否则,花粉输出全局最优解,即一个候选关键蛋白质集合得到关键蛋白质。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西师范大学,未经陕西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711039345.8/,转载请声明来源钻瓜专利网。
- 上一篇:鞍乘型车辆的收纳部结构
- 下一篇:一种具有固定水杯的碳纤维自行车架