[发明专利]一种基于多目标优化的蛋白质网络模块挖掘方法有效
申请号: | 201710208877.3 | 申请日: | 2017-03-31 |
公开(公告)号: | CN106991295B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 张兴义;潘贺斌;张磊;张鑫;苏延森 | 申请(专利权)人: | 安徽大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230601 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多目标优化算法的蛋白质功能模块识别方法,是将所述网络蛋白质节点判定为非重叠蛋白质节点和候选重叠蛋白质节点,通过混合编码,粒子群初始化以及粒子群进化来解决蛋白质网络功能模块挖掘问题。本发明能解决蛋白质网络功能模块组合的单一性问题,提供多种模块组合供用户选择,从而能提高功能模块挖掘的准确性与有效性。 | ||
搜索关键词: | 一种 基于 多目标 优化 蛋白质 网络 模块 挖掘 方法 | ||
【主权项】:
1.一种基于多目标优化的蛋白质网络的模块挖掘方法,其特征是按如下步骤进行:定义所述蛋白质网络表征为G(V,E),V={v1,v2,…,vi,…,vn}表示所述蛋白质网络中所有蛋白质节点的集合,vi表示第i个蛋白质节点;n为蛋白质节点的总数;E={eij|i=1,2,…,n;j=1,2,…,n}表示任意两个蛋白质节点之间的联系的集合;eij表示第i个蛋白质节点vi与第j个蛋白质节点vj之间的联系;若eij=1表示第i个蛋白质节点vi与第j个蛋白质节点vj之间有边相连,则称第i个蛋白质节点vi与第j个蛋白质节点vj互为邻居节点;若第k个蛋白质节点vk同时与第i个蛋白质节点vi与第j个蛋白质节点vj之间有边相连,则称第k个蛋白质节点vk是第i个蛋白质节点vi与第j个蛋白质节点vj的共同邻居;若eij=0,表示第i个蛋白质节点vi与第j个蛋白质节点vj之间无边相连,即不存在联系;步骤1、将所述网络蛋白质节点判定为非重叠蛋白质节点和候选重叠蛋白质节点:步骤1.1:定义第i个蛋白质节点vi的关键点记为Hi;所述关键点Hi表示第i个蛋白质节点vi的邻居节点中与vi拥有最多共同邻居的蛋白质节点;定义第i个蛋白质节点vi的关键点Hi以及第i个蛋白质节点vi和关键点Hi之间的共同邻居所组成的蛋白质网络称为关键邻居子图;步骤1.2:判断第i个蛋白质节点vi是否存在一个关键邻居子图,若存在,则将第i个蛋白质节点vi的第一个关键邻居子图记为Gi,1,并执行步骤1.3;否则,表示第i个蛋白质节点vi为非重叠点蛋白质节点;步骤1.3:判断第i个蛋白质节点vi是否还存在另一个关键邻居子图,若存在,则将第i个蛋白质节点vi的第二个关键邻居子图记为Gi,2,并执行步骤1.4;否则表示第i个蛋白质节点vi为非重叠蛋白质节点;步骤1.4:利用式(1)计算第一个关键邻居子图Gi,1和第二关键邻居子图Gi,2之间的连接稀疏灵敏度值COCL(Gi,1,Gi,2):
式(1)中,L(Gi,1,Gi,2)表示第一个关键邻居子图Gi,1和第二关键邻居子图Gi,2之间的连接边数;L(Gi,1,Gi,1)表示第一个关键邻居子图Gi,1内的连接边数;L(Gi,2,Gi,2)表示第二关键邻居子图Gi,2内的连接边数;步骤1.5:判断COCL(Gi,1,Gi,2)是否小于灵敏度参数μ,若小于,则表示所述第i个蛋白质节点vi为候选重叠蛋白质节点,否则表示所述第i个蛋白质节点vi为非重叠蛋白质节点;步骤1.6、重复步骤1.2‑1.5,从而完成n个蛋白质节点的判断,并由所有的候选重叠蛋白质节点构成候选重叠蛋白质节点集合O=(o1,o2,…,oa,…,ob),oa表示任意第a个候选重叠蛋白质节点;由所有的非重叠蛋白质节点构成非重叠蛋白质节点集合S=(s1,s2,…,sc,…,sd);sc表示任意第c个非重叠蛋白质节点;b+d=n;步骤2、个体编码及解码:步骤2.1:个体编码对候选重叠蛋白质节点集合O中的第a个候选蛋白质节点oa进行编码,令第a个候选重叠蛋白质节点oa的基因值xa随机为‑1或0;对非重叠蛋白质节点集合S中的第c个非重叠蛋白质节点sc进行编码,令第c个非重叠蛋白质节点sc的基因值xc为非重叠蛋白质节点的下标;从而得到个体编码为X={x1,x2,…xi…xn};xi表示第i个蛋白质节点的基因值;步骤2.2:个体解码步骤2.3:初始化i=1;步骤2.4:判断第i位基因值xi是否为0;若是,则执行步骤2.5:否则,判断第i位基因值xi是否为‑1,若是则执行步骤2.6;否则,执行步骤2.7;步骤2.5、则将第i个蛋白质节点的所有非重叠蛋白质邻居节点在个体编码X中所对应的不同基因值作为第i个蛋白质节点的基因值;步骤2.6、则将第i个蛋白质节点的所有非重叠邻居节点在基因编码X中所对应的基因值出现次数最多的基因值作为第i个蛋白质节点的基因值;步骤2.7、将i+1赋值给i,并返回步骤2.4执行,直到i=n为止,从而得到解码后的基因编码X′;步骤2.8、对处理后的个体编码X′中所有基因值相同的蛋白质节点归为一个蛋白质模块,从而得到m个蛋白质模块,记为C={C1,C2,…,Cr,…,Cm},Cr表示第r个蛋白质模块;步骤3:初始化:步骤3.1:定义最大迭代次数为gene,初始迭代次数为t=0、粒子群个体的数目为pop,邻域大小为NS,粒子学习因子为c1、c2,惯性向量为ω,权重向量为λ={λ1,λ2,…,λg,…,λpop};步骤3.2:假设有pop个粒子{X1,X2,…,Xg,…,Xpop},1≤g≤pop,Xg表示第g个粒子;定义t时刻所述第g个粒子
在第i维的位置为
定义t时刻所述第g个粒子
在第i维的速度为
步骤3.3:按照步骤2.1得到第g个粒子Xg的个体编码,并将第g个粒子Xg的个体编码内的第i维xi赋给t=0时刻粒子的第i维的位置
从而得到第g个粒子Xg在t=0时刻的位置
步骤3.4:执行pop次步骤3.3,从而得到初始粒子群的位置
步骤3.5:以初始粒子群的位置
作为初始历史最优粒子群的位置
步骤3.6:将“0”赋给t=0时刻第g个粒子Xg的第i维的速度
从而得到第g个粒子Xg在t=0时刻的速度
步骤3.7:执行步骤3.6进行pop次,从而得到初始粒子群的速度
步骤3.8、参考点的计算步骤3.8.1:将初始粒子群的位置
中的每个粒子初始的位置按照步骤2.2进行解码,得到每个粒子初始的位置对应的若干个蛋白质模块;利用式(2)计算初始粒子群的位置P中第g个粒子Xg的两个目标函数,包括:蛋白质模块内部的连接密度KKMg和蛋白质模块外部的连接密度RCg:
式(2)中,L(Cr,g,Cr,g)表示第g个粒子Xg所对应的第r个蛋白质模块内的连接边数;|Cr,g|表示第g个粒子Xg所对应的第r个蛋白质模块内的蛋白质节点的数目;
表示与第g个粒子Xg所对应的第r个蛋白质模块内的节点连接的所有外部蛋白质节点;
表示第g个粒子Xg所对应的第r个蛋白质模块与所有外部蛋白质节点的连接边数;步骤3.8.2:执行pop次步骤3.8.1,得到pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC;从pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC中分别选取最小值记为f1*和
并构成参考点
步骤3.9:邻域初始化根据第g个粒子的权重向量λg,计算第g个粒子的权重向量λg与其他粒子的权重向量之间的欧式距离,并选取欧式距离最小的前NS个粒子作为第g个粒子的邻居粒子
从而得到pop个粒子的邻居粒子
步骤3.10:粒子群的全局最优粒子的位置初始化对于第g个粒子
从第g个粒子的邻居粒子
里面随机选取一个粒子的位置作为粒子
的全局最优粒子
进行pop次得到粒子群的全局最优粒子的位置,记为
步骤4、粒子群进化:步骤4.1:初始化t=1;步骤4.2:g=1;步骤4.3:t时刻第g粒子的速度产生步骤4.3.1:利用式(3)计算t时刻第g粒子第i维的速度:
式(3)中,ω是惯性权值,设为0;c1是认知能力值,c2是社交能力值;r1和r2是0到1之间的随机数;
是二进制的“与”操作;假设sig函数内运算得到的值是
则
的定义如式(4)所示:
式(4)中rand是0到1之间的随机数;
函数定义如式(5)所示:
步骤4.3.2:对第g粒子的速度的每一维进行步骤4.3.1操作,从而得到第g粒子的速度
步骤4.4:t时刻第g粒子的位置的产生步骤4.4.1:利用式(6)计算t时刻第g粒子的第i维位置![]()
式(6)中,当
时,
为0;当
时,
为‑1;NB为将第i个蛋白质节点的所有非重叠蛋白质邻居节点在t‑1时刻第g粒子
中所对应的不同基因值;步骤4.4.2:对第g粒子的速度的每一维进行步骤4.4.1操作,从而得到t时刻第g粒子的位置
步骤4.5:粒子群的位置更新步骤4.5.1:将Pt‑1赋给Pt;步骤4.5.2:按照步骤3.8.1计算t时刻第g粒子的位置
对应的蛋白质模块内部的连接密度
和蛋白质模块外部的连接密度
步骤4.5.3:根据所述t时刻第g粒子的位置
的两个目标函数以及参考点Z*,计算t时刻第g粒子的位置
在其邻居粒子
对应的权重向量上的切比雪夫值Q={Q1,...Ql,....QNS},1≤l≤NS;再根据步骤3.8.1得到的所有邻居粒子
的两个目标函数以及参考点Z*,计算出所有邻居粒子
对应权重向量上的切比雪夫值QN={QN1,...QNl,...,QNNS};判断邻居粒子
对应权重向量上的切比雪夫值QNl是否有大于
在其邻居粒子
对应的权重向量上的切比雪夫值Ql,若存在第l个邻居粒子满足条件,则在t时刻粒子群的位置Pt中用
替代第l个邻居粒子;步骤4.6:根据步骤3.8.1计算
对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC;判断
所对应的蛋白质模块内部的两个目标函数是否均小于
对应的蛋白质模块内部的两个目标函,若是,则将
赋给
否则将
赋给
步骤4.7:判断
所对应的蛋白质模块内部的连接密度KKM是否小于参考点Z*内的f1*,若是,则将
所对应的蛋白质模块内部的连接密度KKM赋给f1*;否则,f1*不变;判断
的对应的蛋白质模块外部的连接密度RC是否小于参考点Z*内的
若是,则将
的对应的蛋白质模块外部的连接密度RC赋给
否则,
不变;步骤4.8:将g+1赋给g,返回步骤4.3顺序执行,直到g等于pop为止;步骤4.9:根据步骤3.10,得到t时刻
步骤4.10:将t+1赋给t,返回步骤4.2顺序执行,直到t大于gene为止,输出最优的蛋白质网络的模块组合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710208877.3/,转载请声明来源钻瓜专利网。
- 上一篇:远程医疗监护系统
- 下一篇:基于随机化贪心特征选择的集成分类方法