[发明专利]一种基于多目标优化的蛋白质网络模块挖掘方法有效

申请号：	201710208877.3	申请日：	2017-03-31
公开（公告）号：	CN106991295B	公开（公告）日：	2019-06-21
发明（设计）人：	张兴义;潘贺斌;张磊;张鑫;苏延森	申请（专利权）人：	安徽大学
主分类号：	G16B20/00	分类号：	G16B20/00
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230601 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于多目标优化算法的蛋白质功能模块识别方法，是将所述网络蛋白质节点判定为非重叠蛋白质节点和候选重叠蛋白质节点，通过混合编码，粒子群初始化以及粒子群进化来解决蛋白质网络功能模块挖掘问题。本发明能解决蛋白质网络功能模块组合的单一性问题，提供多种模块组合供用户选择，从而能提高功能模块挖掘的准确性与有效性。
搜索关键词：	一种基于多目标优化蛋白质网络模块挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于多目标优化的蛋白质网络的模块挖掘方法，其特征是按如下步骤进行：定义所述蛋白质网络表征为G(V,E)，V＝{v₁,v₂,…,v_i,…,v_n}表示所述蛋白质网络中所有蛋白质节点的集合，v_i表示第i个蛋白质节点；n为蛋白质节点的总数；E＝{e_ij|i＝1,2,…,n；j＝1,2,…,n}表示任意两个蛋白质节点之间的联系的集合；e_ij表示第i个蛋白质节点v_i与第j个蛋白质节点v_j之间的联系；若e_ij＝1表示第i个蛋白质节点v_i与第j个蛋白质节点v_j之间有边相连，则称第i个蛋白质节点v_i与第j个蛋白质节点v_j互为邻居节点；若第k个蛋白质节点v_k同时与第i个蛋白质节点v_i与第j个蛋白质节点v_j之间有边相连，则称第k个蛋白质节点v_k是第i个蛋白质节点v_i与第j个蛋白质节点v_j的共同邻居；若e_ij＝0，表示第i个蛋白质节点v_i与第j个蛋白质节点v_j之间无边相连，即不存在联系；步骤1、将所述网络蛋白质节点判定为非重叠蛋白质节点和候选重叠蛋白质节点：步骤1.1：定义第i个蛋白质节点v_i的关键点记为H_i；所述关键点H_i表示第i个蛋白质节点v_i的邻居节点中与v_i拥有最多共同邻居的蛋白质节点；定义第i个蛋白质节点v_i的关键点H_i以及第i个蛋白质节点v_i和关键点H_i之间的共同邻居所组成的蛋白质网络称为关键邻居子图；步骤1.2：判断第i个蛋白质节点v_i是否存在一个关键邻居子图，若存在，则将第i个蛋白质节点v_i的第一个关键邻居子图记为G_i,1，并执行步骤1.3；否则，表示第i个蛋白质节点v_i为非重叠点蛋白质节点；步骤1.3：判断第i个蛋白质节点v_i是否还存在另一个关键邻居子图，若存在，则将第i个蛋白质节点v_i的第二个关键邻居子图记为G_i,2，并执行步骤1.4；否则表示第i个蛋白质节点v_i为非重叠蛋白质节点；步骤1.4：利用式(1)计算第一个关键邻居子图G_i,1和第二关键邻居子图G_i,2之间的连接稀疏灵敏度值COCL(G_i,1,G_i,2)：式(1)中，L(G_i,1,G_i,2)表示第一个关键邻居子图G_i,1和第二关键邻居子图G_i,2之间的连接边数；L(G_i,1,G_i,1)表示第一个关键邻居子图G_i,1内的连接边数；L(G_i,2,G_i,2)表示第二关键邻居子图G_i,2内的连接边数；步骤1.5：判断COCL(G_i,1,G_i,2)是否小于灵敏度参数μ，若小于，则表示所述第i个蛋白质节点v_i为候选重叠蛋白质节点，否则表示所述第i个蛋白质节点v_i为非重叠蛋白质节点；步骤1.6、重复步骤1.2‑1.5，从而完成n个蛋白质节点的判断，并由所有的候选重叠蛋白质节点构成候选重叠蛋白质节点集合O＝(o₁,o₂，…,o_a,…,o_b)，o_a表示任意第a个候选重叠蛋白质节点；由所有的非重叠蛋白质节点构成非重叠蛋白质节点集合S＝(s₁,s₂，…,s_c，…,s_d)；s_c表示任意第c个非重叠蛋白质节点；b+d＝n；步骤2、个体编码及解码：步骤2.1：个体编码对候选重叠蛋白质节点集合O中的第a个候选蛋白质节点o_a进行编码，令第a个候选重叠蛋白质节点o_a的基因值x_a随机为‑1或0；对非重叠蛋白质节点集合S中的第c个非重叠蛋白质节点s_c进行编码，令第c个非重叠蛋白质节点s_c的基因值x_c为非重叠蛋白质节点的下标；从而得到个体编码为X＝{x₁,x₂,…x_i…x_n}；x_i表示第i个蛋白质节点的基因值；步骤2.2：个体解码步骤2.3：初始化i＝1；步骤2.4：判断第i位基因值x_i是否为0；若是，则执行步骤2.5：否则，判断第i位基因值x_i是否为‑1，若是则执行步骤2.6；否则，执行步骤2.7；步骤2.5、则将第i个蛋白质节点的所有非重叠蛋白质邻居节点在个体编码X中所对应的不同基因值作为第i个蛋白质节点的基因值；步骤2.6、则将第i个蛋白质节点的所有非重叠邻居节点在基因编码X中所对应的基因值出现次数最多的基因值作为第i个蛋白质节点的基因值；步骤2.7、将i+1赋值给i，并返回步骤2.4执行，直到i＝n为止，从而得到解码后的基因编码X′；步骤2.8、对处理后的个体编码X′中所有基因值相同的蛋白质节点归为一个蛋白质模块，从而得到m个蛋白质模块，记为C＝{C₁,C₂，…,C_r,…,C_m}，C_r表示第r个蛋白质模块；步骤3：初始化：步骤3.1：定义最大迭代次数为gene，初始迭代次数为t＝0、粒子群个体的数目为pop，邻域大小为NS，粒子学习因子为c1、c2，惯性向量为ω，权重向量为λ＝{λ₁,λ₂，…,λ_g,…,λ_pop}；步骤3.2：假设有pop个粒子{X₁,X₂，…,X_g,…,X_pop}，1≤g≤pop，X_g表示第g个粒子；定义t时刻所述第g个粒子在第i维的位置为定义t时刻所述第g个粒子在第i维的速度为步骤3.3：按照步骤2.1得到第g个粒子X_g的个体编码，并将第g个粒子X_g的个体编码内的第i维x_i赋给t＝0时刻粒子的第i维的位置从而得到第g个粒子X_g在t＝0时刻的位置步骤3.4：执行pop次步骤3.3，从而得到初始粒子群的位置步骤3.5：以初始粒子群的位置作为初始历史最优粒子群的位置步骤3.6：将“0”赋给t＝0时刻第g个粒子X_g的第i维的速度从而得到第g个粒子X_g在t＝0时刻的速度步骤3.7：执行步骤3.6进行pop次，从而得到初始粒子群的速度步骤3.8、参考点的计算步骤3.8.1：将初始粒子群的位置中的每个粒子初始的位置按照步骤2.2进行解码，得到每个粒子初始的位置对应的若干个蛋白质模块；利用式(2)计算初始粒子群的位置P中第g个粒子X_g的两个目标函数，包括：蛋白质模块内部的连接密度KKM_g和蛋白质模块外部的连接密度RC_g：式(2)中，L(C_r,g,C_r,g)表示第g个粒子X_g所对应的第r个蛋白质模块内的连接边数；|C_r,g|表示第g个粒子X_g所对应的第r个蛋白质模块内的蛋白质节点的数目；表示与第g个粒子X_g所对应的第r个蛋白质模块内的节点连接的所有外部蛋白质节点；表示第g个粒子X_g所对应的第r个蛋白质模块与所有外部蛋白质节点的连接边数；步骤3.8.2：执行pop次步骤3.8.1，得到pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC；从pop个粒子的位置对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC中分别选取最小值记为f₁*和并构成参考点步骤3.9：邻域初始化根据第g个粒子的权重向量λ_g，计算第g个粒子的权重向量λ_g与其他粒子的权重向量之间的欧式距离，并选取欧式距离最小的前NS个粒子作为第g个粒子的邻居粒子从而得到pop个粒子的邻居粒子步骤3.10：粒子群的全局最优粒子的位置初始化对于第g个粒子从第g个粒子的邻居粒子里面随机选取一个粒子的位置作为粒子的全局最优粒子进行pop次得到粒子群的全局最优粒子的位置，记为步骤4、粒子群进化：步骤4.1：初始化t＝1；步骤4.2：g＝1；步骤4.3：t时刻第g粒子的速度产生步骤4.3.1：利用式(3)计算t时刻第g粒子第i维的速度：式(3)中，ω是惯性权值，设为0；c₁是认知能力值，c₂是社交能力值；r₁和r₂是0到1之间的随机数；是二进制的“与”操作；假设sig函数内运算得到的值是则的定义如式(4)所示：式(4)中rand是0到1之间的随机数；函数定义如式(5)所示：步骤4.3.2：对第g粒子的速度的每一维进行步骤4.3.1操作，从而得到第g粒子的速度步骤4.4：t时刻第g粒子的位置的产生步骤4.4.1：利用式(6)计算t时刻第g粒子的第i维位置式(6)中，当时，为0；当时，为‑1；NB为将第i个蛋白质节点的所有非重叠蛋白质邻居节点在t‑1时刻第g粒子中所对应的不同基因值；步骤4.4.2：对第g粒子的速度的每一维进行步骤4.4.1操作，从而得到t时刻第g粒子的位置步骤4.5：粒子群的位置更新步骤4.5.1：将P^t‑1赋给P^t；步骤4.5.2：按照步骤3.8.1计算t时刻第g粒子的位置对应的蛋白质模块内部的连接密度和蛋白质模块外部的连接密度步骤4.5.3：根据所述t时刻第g粒子的位置的两个目标函数以及参考点Z^*，计算t时刻第g粒子的位置在其邻居粒子对应的权重向量上的切比雪夫值Q＝{Q₁,...Q_l,....Q_NS}，1≤l≤NS；再根据步骤3.8.1得到的所有邻居粒子的两个目标函数以及参考点Z^*，计算出所有邻居粒子对应权重向量上的切比雪夫值QN＝{QN₁,...QN_l,...,QN_NS}；判断邻居粒子对应权重向量上的切比雪夫值QN_l是否有大于在其邻居粒子对应的权重向量上的切比雪夫值Q_l，若存在第l个邻居粒子满足条件，则在t时刻粒子群的位置P^t中用替代第l个邻居粒子；步骤4.6：根据步骤3.8.1计算对应的蛋白质模块内部的连接密度KKM和蛋白质模块外部的连接密度RC；判断所对应的蛋白质模块内部的两个目标函数是否均小于对应的蛋白质模块内部的两个目标函，若是，则将赋给否则将赋给步骤4.7：判断所对应的蛋白质模块内部的连接密度KKM是否小于参考点Z^*内的f₁^*，若是，则将所对应的蛋白质模块内部的连接密度KKM赋给f₁^*；否则，f₁^*不变；判断的对应的蛋白质模块外部的连接密度RC是否小于参考点Z^*内的若是，则将的对应的蛋白质模块外部的连接密度RC赋给否则，不变；步骤4.8：将g+1赋给g，返回步骤4.3顺序执行，直到g等于pop为止；步骤4.9：根据步骤3.10，得到t时刻步骤4.10：将t+1赋给t，返回步骤4.2顺序执行，直到t大于gene为止，输出最优的蛋白质网络的模块组合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽大学，未经安徽大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710208877.3/，转载请声明来源钻瓜专利网。

上一篇：远程医疗监护系统
下一篇：基于随机化贪心特征选择的集成分类方法

同类专利

专利分类

G 物理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多目标优化的蛋白质网络模块挖掘方法有效

专利文献下载