[发明专利]一种基于多任务进化算法的多数据集特征选择方法及其系统在审
申请号: | 202110013279.7 | 申请日: | 2021-01-06 |
公开(公告)号: | CN112668245A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 罗喜伶;金晨;张泊宇 | 申请(专利权)人: | 北京航空航天大学杭州创新研究院 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06K9/62;G06N3/12;G06F111/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 进化 算法 多数 特征 选择 方法 及其 系统 | ||
1.一种基于多任务进化算法的多数据集特征选择方法,其特征在于,包括如下步骤:
步骤1:针对不同场景下的多回归模型集成任务,将该任务下的数据集根据不同的场景进行数据集划分,每一个场景均对应一个子数据集;
步骤2:初始化进化算法的环境参数及约束条件,并对子数据集中的特征进行编码;
步骤3:针对每一个场景下的子数据集,从父代种群中选择优异个体并形成子种群,并基于步骤2所述的进化算法生成子代种群个体;
在筛选子种群的过程中,根据父代种群中每一个个体在不同子数据集中的分类/拟合表现,在所有的子数据集中分别筛选对应数据集的优异个体;
步骤4:根据生成的子代种群个体所代表的特征,在每一个子数据集上进行回归模型的训练和k-折交叉检验,得到该特征组合下的回归/分类模型精度;
步骤5:根据步骤4得到的回归模型精度,结合多任务进化机制,将父代种群个体和子代种群个体融合进化,生成一个规模与父代相同,但保留父代和子代中优异个体的新种群;
步骤6:重复步骤3至步骤5,直至达到总迭代次数;
步骤7:输出每个子数据集的特征选择结果及回归模型,完成针对不同场景下的多回归模型集成任务。
2.如权利要求1所述的基于多任务进化算法的多数据集特征选择方法,其特征在于,所述进化算法的环境参数包括交叉变异率、迭代次数、种群规模、数据集数量、k-折参数。
3.如权利要求1所述的基于多任务进化算法的多数据集特征选择方法,其特征在于,所述的步骤3中,以每个个体在不同子数据集的分类/拟合精度作为依据,对所有种群个体进行排序,若某个个体在多个子数据集表现优异,则其会被多个子数据集都选中,从而扩散其优异基因并产生后代,引导进化过程;反之,无法进入子种群,失去产生后代的机会,进而被淘汰。
4.如权利要求1所述的基于多任务进化算法的多数据集特征选择方法,其特征在于,步骤5所述的多任务进化机制,具体为:
步骤5.1:根据父代种群个体和子代种群个体在所有子数据集对应的回归模型中的分类/拟合精度,计算每一个个体的初始适应度值;
步骤5.2:根据父代种群个体和子代种群个体在所有子数据集对应的回归模型中的分类/拟合精度、以及每一个个体的初始适应度值,计算得到每一个个体基于适应度排序的汉明距离;
步骤5.3:对步骤5.1得到的初始适应度值和步骤5.2得到的汉明距离进行归一化,将归一化后的乘积作为最终适应度值;
步骤5.4:根据最终适应度值对父代种群个体和子代种群个体进行排序,选择前Np个个体作为新的父代种群;其中,Np为初始化父代种群中的个体数量。
5.如权利要求4所述的基于多任务进化算法的多数据集特征选择方法,其特征在于,所述的初始适应度值计算公式为:
其中,rij是个体i在子数据集j上的分类/拟合精度在所有个体中的排名,M表示子数据集的数量,fi表示个体i的初始适应度值。
6.如权利要求4所述的基于多任务进化算法的多数据集特征选择方法,其特征在于,所述的步骤5.2只计算适应度值比当前个体Xi优秀的个体的汉明距离,计算公式为:
其中,Q是数据集中总的特征数目,为种群个体i在第k个特征上的值,若k=1,则表示该特征得到选择,若k=0,则表示该特征不被选择;表示汉明距离计算方式;Ns表示子种群的个体数量,fi表示个体i的适应度值,di表示个体i基于适应度排序的汉明距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学杭州创新研究院,未经北京航空航天大学杭州创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110013279.7/1.html,转载请声明来源钻瓜专利网。