[发明专利]一种基于进化算法和模糊聚类的蛋白质功能模块识别方法在审
| 申请号: | 202111552679.1 | 申请日: | 2021-12-17 |
| 公开(公告)号: | CN114239726A | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 田野;胡佳星;司朗春;张兴义 | 申请(专利权)人: | 安徽大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06F17/16 |
| 代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
| 地址: | 230601 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 进化 算法 模糊 蛋白质 功能模块 识别 方法 | ||
1.一种基于进化算法和模糊聚类的蛋白质功能模块识别方法,是应用于蛋白质网络中的功能模块识别,所述蛋白质网络表征为G=(V,A),其中,V={v1,v2,…,vi,…,vn}表示蛋白质网络中所有蛋白质节点的集合,vi表示第i个蛋白质节点,n为蛋白质网络中的蛋白质节点总数;A={Aij|i=1,2,…,n;j=1,2,…,n;i≠j}表示蛋白质节点之间的连接关系,即边的集合;Aij表示第i个蛋白质节点vi和第j个蛋白质节点vj之间的连接关系;若Aij=0,表示第i个蛋白质节点vi和第j个蛋白质节点vj之间没有连接关系;若Aij=1,表示第i个蛋白质节点vi和第j个蛋白质节点vj之间存在连接关系;且Aij=Aji,Aij∈{0,1},令第i个蛋白质节点的度为其特征是,所述蛋白质功能模块识别方法是按如下步骤进行的:
步骤一、初始化;
步骤1.1、定义蛋白质功能模块集合为C={C1,C2,...,Cq,...,Ck},且满足条件式(1)和式(2):
式(1)和式(2)中,Cq表示第q个蛋白质功能模块;Cp表示第p个蛋白质功能模块;若第q个蛋白质功能模块Cq和第p个蛋白质功能模块Cp之间有重复的蛋白质节点,则表示蛋白质网络G采用有重叠的划分方式;否则,表示蛋白质网络G采用非重叠的划分方式;蛋白质网络的每种划分方式均对应着蛋白质模块的一种识别结果;
步骤1.2、初始化候选核心蛋白质节点的索引集合初始化保留蛋白质节点的索引集合Index={1,2,…,n},n代表指向第n个蛋白质节点的索引;
步骤1.3、计算保留蛋白质节点的索引集合Index中每个索引指向的蛋白质节点的度,选择度值最大的蛋白质节点,并将其索引添加到候选核心蛋白质节点的索引集合K中,再将度值最大的蛋白质节点及其有连接关系的所有蛋白质节点的索引从保留蛋白质节点的索引集合Index中删除;
步骤1.4、重复步骤1.3直到保留蛋白质节点的索引集合Index为空为止,从而得到最终的候选核心蛋白质节点的索引集合K,且索引集合K中每个索引指向的所有蛋白质节点为蛋白质网络中的候选核心蛋白质节点;以核心蛋白质节点作为蛋白质模块的核心,且蛋白质模块有且仅有一个核心蛋白质节点;
步骤二、基于AR-MOEA进化算法优化的非重叠的蛋白质功能模块划分;
步骤2.1、定义种群大小为Npop、最大迭代次数为Gen;
步骤2.2、初始化当前种群迭代次数G=0;
步骤2.3、初始化Npop个种群个体表示第G代种群中的第α个个体;
步骤2.3.1、根据蛋白质节点集合V中的第i个蛋白质节点vi是否为候选核心蛋白质节点,初始化第i个蛋白质节点vi的二进制编码的基因值bi为1或0,当bi=1时,表示第i个蛋白质节点vi为核心蛋白质节点,当bi=0时,表示第i个蛋白质节点vi为非核心蛋白质节点,从而得到第G代种群中任意第α个个体的二进制编码表示第G代第α个个体的第i个二进制编码的基因值;
步骤2.3.2、初始化种群中Npop个个体的二进制编码的基因值为0,即初始时默认所有蛋白质节点均为非核心蛋白质节点;
步骤2.3.3、初始化α=1;
步骤2.3.4、从候选核心蛋白质节点的索引集合K中随机选择rand1∈[1,|K|]个蛋白质节点,并将第α个个体Pα对应位置的rand1个蛋白质节点的基因值设置为1;|K|表示索引集合K中元素的个数,且|K|<n;
步骤2.3.5、将α+1赋值给α,并返回步骤2.3.4,直到α大于Npop/2为止;
步骤2.3.6、从蛋白质节点集合V中所有蛋白质节点中随机选择rand2∈[1,n]个蛋白质节点,并将第α个个体Pα对应位置的rand2个蛋白质节点的基因值设置为1;
步骤2.3.7、将α+1赋值给α,并返回步骤2.3.6,直到α大于Npop为止,从而得到第G代种群中的Npop个个体;
步骤2.4、根据第G代种群中的任意第α个个体的二进制编码值,将蛋白质网络中的所有蛋白质节点分为核心蛋白质节点和非核心蛋白质节点;
步骤2.4.1、定义第G代种群中的第α个个体中非核心蛋白质节点的索引集合其中,代表第G代种群中的第α个个体中第e(G,α)个非核心蛋白质节点在蛋白质节点集合V中的索引;e(G,α)∈[1,f(G,α)],f(G,α)表示索引集合NC(G,α)中元素的数量;
定义第G代种群中的任意第α个个体中核心蛋白质节点的索引集合其中,代表第G代种群中的第α个个体中第g(G,α)个核心蛋白质节点在蛋白质节点集合V中的索引;g(G,α)∈[1,h(G,α)],h(G,α)表示索引集合CN(G,α)中元素的数量;
步骤2.4.2、按式(3)计算第G代种群中的任意第α个个体中每个非核心蛋白质节点和每个核心蛋白质节点之间的隶属度,从而得到第G代种群中的第α个个体的隶属度矩阵
式(3)中,代表第G代种群中的第α个个体中第e(G,α)个非核心蛋白质节点和第g(G,α)个核心蛋白质节点之间的隶属度;代表第G代种群中的第α个个体在蛋白质节点集合V中第个蛋白质节点和第个蛋白质节点之间的欧式距离;f代表控制模糊聚类的参数;
步骤2.4.3、根据第G代种群中的第α个个体的隶属度矩阵U(G,α),得到所有非核心蛋白质节点的归属模块;其中,隶属度矩阵U(G,α)中任意第e(G,α)行代表第e(G,α)个非核心蛋白质节点和所有核心蛋白质节点之间的隶属度,以第e(G,α)行中隶属度值最大的元素所在的列为第e(G,α)行的核心蛋白质节点,且第e(G,α)个非核心蛋白质节点属于第e(G,α)行的核心蛋白质节点所在的蛋白质功能模块;从而得到第G代种群中的第α个个体的隶属度矩阵U(G,α)中f(G,α)个非核心蛋白质节点属于相应行的核心蛋白质节点所在的蛋白质功能模块,进而得到第G代种群中的第α个个体对应的蛋白质功能模块划分结果,最终得到第G代种群中的Npop个个体代表的Npop种蛋白质功能模块划分结果;
步骤2.5、利用式(4)和式(5)建立第G代种群中第α个个体Pα的两个最小化目标函数,包括:蛋白质功能模块内部的连接密度KKM(G,α)和蛋白质功能模块外部的连接密度RC(G,α);从而得到第G代种群中所有个体的两个最小化目标函数;
式(4)和式(5)中,k(G,α)为第G代种群中第α个个体Pα中蛋白质功能模块的数量,表示第G代种群中第α个个体Pα中第q个蛋白质功能模块,表示第G代种群中第α个个体Pα中第q个蛋白质功能模块中蛋白质节点的数量;表示第G代种群中第α个个体Pα中第q个蛋白质功能模块和第p个蛋白质功能模块之间有连接的节点数量,且Avw表示第v个蛋白质节点和第w个蛋白质节点之间的连接关系;
步骤2.6、基于AR-MOEA进化算法中的增强版反转世代距离选择方法对第G代种群选择父代交配池,得到第G代父代,再对第G代父代进行单点交叉和按位变异操作,产生第G代子代;
步骤2.7、基于AR-MOEA进化算法中的增强版反转世代距离选择方法从由第G代种群和第G代子代组成的混合群体中选择Npop个个体作为第G+1代种群个体;
步骤2.8、将G+1赋值给G后,重复步骤2.4到步骤2.7,直到G等于Gen为止,从而得到第Gen代种群并进行非支配排序,得到排序后的第Gen代种群,再删除其中被支配的个体,从而得到剩余的非支配个体集合以及相应的蛋白质功能模块划分结果;表示第Gen代种群中第σ个非支配个体;Nnp表示第Gen代种群中非支配个体的数量;σ∈[1,Nnp];
步骤2.9、将第Gen代种群中第σ个非支配个体对应的蛋白质功能模块划分结果作为第σ种非重叠的蛋白质功能模块划分,从而得到Nnp种非重叠的蛋白质功能模块划分;
步骤三、基于AR-MOEA进化算法优化的重叠的蛋白质功能模块划分;
步骤3.1、定义第Gen代种群中的Nnp个非支配个体各自对应的一个子种群的种群大小均为Nsub、每个子种群的最大迭代次数均为Gensub;
步骤3.2、初始化σ=1;
步骤3.3、初始化当前第σ个子种群的迭代次数
步骤3.4、初始化第σ个子种群中的第代的非核心蛋白质节点的模糊阈值向量为一组零向量,表示第σ个子种群中的第代的第i个蛋白质节点的模糊阈值;
步骤3.4.1、初始化e(Gen,σ)=1;
步骤3.4.2、使用k-means算法将非核心蛋白质节点的索引集合NC(Gen,σ)中第e(Gen,σ)个索引所指向的非核心蛋白质节点对应的隶属度矩阵U(Gen,σ)中的第e(Gen,σ)行数值聚为两个类别和并按式(6)计算第σ个子种群中的第代的非核心蛋白质节点集合NC(Gen,σ)中的第e(Gen,σ)个索引所指向的非核心蛋白质节点的模糊阈值从而得到更新后的模糊阈值向量,并对应赋值给第e(Gen,σ)个索引在模糊阈值向量中所指向的蛋白质节点的模糊阈值;
式(6)中,表示从两个类别和中具有较大值的一类中取得的最小值;表示非核心蛋白质节点的索引集合NC(Gen,σ)中第e(Gen,σ)个索引所指向的非核心蛋白质节点对应的隶属度矩阵U(Gen,σ)中的第e(Gen,σ)行数值的第l个隶属度值;
步骤3.4.3、将e(Gen,σ)+1赋值给e(Gen,σ),并返回步骤3.4.2,直到e(Gen,σ)大于h(Gen,σ)为止,从而得到最终的第σ个子种群中的第代的蛋白质节点的模糊阈值向量
步骤3.5、初始化第σ个子种群;
步骤3.5.1、初始化β=1;
步骤3.5.2、定义第σ个子种群中的第代的第β个个体的实数编码表示第σ个子种群中的第代的第β个个体的第i个实数编码的基因值;
以一定概率将模糊阈值向量的每一维赋予0到1之间的随机值,并赋值给对应的从而得到第σ个子种群中的第代的第β个个体的初始实数编码
步骤3.5.3、将β+1赋值给β,重复步骤3.5.2,直到β大于Nsub为止,从而得到初始化后的第σ个子种群的Nsub个个体;
步骤3.6、以隶属度矩阵Uσ中任意第e(Gen,σ)行的隶属度值大于所在的列为第e(Gen,σ)行的核心蛋白质节点,且第e(Gen,σ)个非核心蛋白质节点属于第e(Gen,σ)行的核心蛋白质节点所在的蛋白质功能模块;从而得到第σ个子种群的隶属度矩阵Uσ中f(Gen,σ)个非核心蛋白质节点属于相应行的核心蛋白质节点所在的蛋白质功能模块,进而得到第σ个子种群中的第代的第β个个体的对应的蛋白质功能模块划分结果,最终得到第σ个子种群中的第代中的Nsub个个体代表的Nsub种蛋白质功能模块划分结果;
步骤3.7、利用式(7)、式(8)和式(9)计算第σ个子种群的第代中任意第β个个体的两个最大化目标函数和从而得到第σ个子种群的第代中所有个体的两个最大化目标函数;
式(7)、式(8)和式(9)中,表示第σ个子种群的第代中第β个个体中的重叠的蛋白质节点数量;代表第σ个子种群的第代中第β个个体中的扩展模块度;代表第σ个子种群的第代的第β个个体中的蛋白质功能模块的数量;表示第σ个子种群的第代的第β个个体中的第q个蛋白质功能模块;m指的是蛋白质网络中边的数量;和分别表示在第σ个子种群的第代的第β个个体中的第u个蛋白质节点归属的蛋白质功能模块数量和第w个蛋白质节点归属的蛋白质功能模块数量;du和dw分别指的是第u个蛋白质节点vu的度和第w个蛋白质节点vw的度;
步骤3.8、基于AR-MOEA进化算法中的增强版反转世代距离选择方法对第σ个子种群的第代种群执行交配池选择,得到第σ个子种群的第代父代,再对第σ个子种群的第代父代进行模拟二进制交叉和多项式变异操作,产生第σ个子种群的第代子代;
步骤3.9、基于AR-MOEA进化算法中的增强版反转世代距离选择方法,从由第σ个子种群的第代种群和第代子代组成的混合群体中选择Nsub个个体作为第σ个子种群的第代种群个体;
步骤3.10、将赋值给后,按式(10)计算第σ个子种群中的第代的非核心蛋白质节点集合NC(Gen,σ)中的任意第e(Gen,σ)个索引所指向的非核心蛋白质节点的模糊阈值从而得到更新后的模糊阈值向量,并对应赋值给第e(Gen,σ)个索引在模糊阈值向量中所指向的的蛋白质节点的模糊阈值,进而得到最终的第σ个子种群中的第代的蛋白质节点的模糊阈值向量
式(10)中,表示非核心蛋白质节点的索引集合NC(Gen,σ)中第e(Gen,σ)个索引表示第σ个子种群中的第代的第β个个体的第个蛋白质节点的实数编码基因值;表示隶属度矩阵U(Gen,σ)中的第e(Gen,σ)行数值的第l个隶属度值;
步骤3.11、重复步骤3.6到步骤3.10,直到等于Gensub为止,从而得到第σ个子种群的第Gensub代种群并进行非支配排序,得到排序后的第σ个子种群的第Gensub代种群,并删除其中被支配的个体,得到剩余的非支配个体集合以及相应的蛋白质功能模块划分结果;表示第σ个子种群的第Gensub代种群中第βσ个非支配个体;表示第σ个子种群的第Gensub代种群中非支配个体的数量;
步骤3.10、将第σ个子种群的第Gensub代种群的第βσ个非支配个体对应的蛋白质功能模块划分结果作为第βσ种重叠的蛋白质功能模块划分,进而得到种重叠的蛋白质功能模块划分;
步骤3.11、将σ+1赋值给σ,并返回步骤3.3,直到σ大于Nnp为止,从而得到种重叠的蛋白质模块划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111552679.1/1.html,转载请声明来源钻瓜专利网。





