[发明专利]基于改进樽海鞘群算法的医学疾病特征选择方法有效
| 申请号: | 202110834402.1 | 申请日: | 2021-07-23 |
| 公开(公告)号: | CN113642613B | 公开(公告)日: | 2023-10-10 |
| 发明(设计)人: | 汪鹏君;赵松伟;陈慧灵;许素玲;何文明;施一剑 | 申请(专利权)人: | 温州大学 |
| 主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2413;G06N3/006 |
| 代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 方小惠 |
| 地址: | 325000 浙江省温州市瓯海*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 改进 海鞘 算法 医学 疾病 特征 选择 方法 | ||
1.一种基于改进樽海鞘群算法的医学疾病特征选择方法,其特征在于包括以下步骤:
步骤S1、获取医学疾病的微阵列基因数据集,将医学疾病的微阵列基因数据集的行数记为m,列数记为n,即获得的医学疾病的微阵列基因数据集由m×n个基因特征数据按照m行n列排布形成;使用10-交叉验证函数将医学疾病的微阵列基因数据集按行数随机分割成10个子集,每个子集的行数大于等于1,列数均为n,从10个子集中随机选择一子集为验证集,其余子集为训练集;
步骤S2、定义一个母樽海鞘种群Y,母樽海鞘种群Y的规模大小为M=20,即母樽海鞘种群Y中存在M个个体,母樽海鞘种群Y中的每个个体分别采用由n个维度值按照1行n列排布形成的数据矩阵来表示,再使用0到1之间的随机数对母樽海鞘种群Y中的每个个体的每个维度值分别进行初始化赋值,得到第0代母樽海鞘种群0;
步骤S3、设定全局最优适应度值为best,将best初始化赋值为正无穷大,设全局最优个体为bestposition,将bestposition初始设置为1行n列的数据矩阵[0,0,0,…,0];
步骤S4、设母樽海鞘种群迭代的最大次数为T=50,设定迭代次数变量t,将t初始设置为1;
步骤S5、对母樽海鞘种群进行第t次迭代,具体迭代过程为:
步骤S5.1、将t-1代母樽海鞘种群Yt-1中每个个体的每个维度值分别通过公式(1)-(2)所示的转换函数转换成0或者1,得到第t代二进制樽海鞘种群Bt:
其中,表示第t-1代母樽海鞘种群的第i个个体的第j列维度值,i=1,2,3,…,M,j=1,2,3,…,n,表示第t代二进制樽海鞘种群的第i个个体的第j列维度值,r是0到1之间的的随机数,每次运算前通过随机函数生成,e是自然常数;
步骤S5.2、构建第t-1代母樽海鞘种群中每个个体的特征子集,具体过程为:分别判断第t代二进制樽海鞘种群中第i个个体中每列维度值是否为1,如果为1,则验证集和9个训练集中位于该列的基因特征数据被选择,如果为0,则验证集和9个训练集中位于该列的基因特征数据不被选择,将验证集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的验证集的特征子集,将9个训练集中所有未被选择列的基因特征数据删除后剩余部分作为第t-1代母樽海鞘种群中第i个个体的9个训练集的特征子集,由此得到第t-1代母樽海鞘种群中每个个体的验证集的特征子集和9个训练集的特征子集;
步骤S5.3、采用公式(3)和公式(4)计算第t-1代母樽海鞘种群中每个个体的适应度值,并将第t-1代母樽海鞘种群中的所有个体按照适应度值从小到大进行排序,将其中最小的适应度值记为bFt-1,适应度值最小的个体作为当前最优个体,记为bPt-1;
其中,表示第t-1代母樽海鞘种群的第i个个体的适应度值,a表示分类准确权重,设置为0.05,b表示最佳特征选择数权重,a和b的关系为a+b=1,表示第t代二进制樽海鞘种群的第i个个体中维度值为1的总列数,表示在K-近邻算法下获得的第i个个体的分类精确度,和通过采用K-近邻算法对第t-1代母樽海鞘种群中第i个个体的验证集的特征子集中的数据和9个训练集的特征子集中的数据进行分类统计检验后得到,表示验证集的特征子集的数据分类正确的数目,表示验证集的特征子集的数据分类分类错误的数目;
步骤S5.4、采用公式(5)对第t代二进制樽海鞘种群Bt的第1个个体到第M/2个个体中每个维度值分别进行更新,得到第t代初始樽海鞘种群Ft的第1个个体到M/2个个体:
其中,k=1,2,3,…,M/2,r1t和r2t分别为通过随机函数产生的位于0到1之间的随机数,ct是控制参数,采用公式(6)表示,表示当前最优个体bPt-1的第j列维度值,表示第t代初始樽海鞘种群Ft的第k个个体的第j列维度值,e为自然常数;
步骤S5.5、利用自适应控制参数,采用公式(7)对第t代二进制樽海鞘种群Bt的第M/2+1个个体到第M个个体的每个维度值分别进行更新,得到第t代初始樽海鞘种群Ft的第M/2+1个体到第M个个体:
其中,d=M/2+1,M/2+2,M/2+3,…,M,表示第t代二进制樽海鞘种群Bt的第d个个体,表示第t代二进制樽海鞘种群Bt的第d-1个个体,表示第t代初始樽海鞘种群Ft的第d个个体,指的是圆周率,cos表示余弦函数;
步骤S5.6、采用步骤S5.1~步骤S5.3相同的方法计算第t代初始樽海鞘种群Ft的每个个体的适应度值,并将第t代初始樽海鞘种群Ft中所有个体按照适应度值从小到大进行排序,将其中适应度值最小的个体记为firt,适应度值第二小的个体记为sect,适应度第三小的个体记为tht;
步骤S5.7、基于精英灰狼统治策略,采用公式(8)-(16)对第t代初始樽海鞘种群Ft进行探索开发,得到第t代中间樽海鞘种群Gt:
At=2βt×r4t-βt (10)
其中,r3t和r4t分别为通过随机函数产生的位于0到1之间的随机数,At和βt都是一个向量系数,表示第t代初始樽海鞘种群Ft中适应度值最小的个体的第j列维度值,表示第t代初始樽海鞘种群Ft中适应度值第二小的个体的第j列维度值,表示第t代初始樽海鞘种群Ft中适应度值第三小的个体的第j列维度值,表示第t代初始樽海鞘种群Ft中第i个个体的第j列维度值,表示第t代中间樽海鞘种群Gt中第i个个体的第j列维度值;
步骤S5.8、采用步骤S5.1~步骤S5.3相同的方法计算第t代中间樽海鞘种群Gt的适应度值,将第t代初始樽海鞘种群Ft的M个个体和第t代中间樽海鞘种群Gt的M个个体组合在一起,共2M个个体按照其适应度值从小到大顺序进行排序,选出适应度值较小的M个个体,将这M个个体随机排列作为第t次迭代得到第t代樽海鞘种群Yt;
步骤S5.9、将第t代樽海鞘种群Yt的最小适应度值与全局最优适应度值best比较,如果小于全局最优适应度值best,则采用该最小适应度值更新best,并将该最小适应度值对应的个体作为全局最优个体bestposition,如果不小于全局最优适应度值best,则全局最优适应度值best和全局最优个体bestposition保持不变,第t次迭代结束;
步骤S6、判断t的当前值是否等于T,如果不等于,则采用t的当前值加1的和更新t的值,然后返回步骤S5,进入下一次迭代;如果等于T,则迭代过程结束,确定当前全局最优个体bestposition的第1列到第n列中维度值为1的列,对应的将医学疾病的微阵列基因数据集中位于这些列的基因特征数据提取出来构成一个选择数据集,此时得到的选择数据集就是降维后的医学疾病的基因特征数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于温州大学,未经温州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110834402.1/1.html,转载请声明来源钻瓜专利网。





