[发明专利]一种基于多任务进化算法的多数据集特征选择方法及其系统在审
申请号: | 202110013279.7 | 申请日: | 2021-01-06 |
公开(公告)号: | CN112668245A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 罗喜伶;金晨;张泊宇 | 申请(专利权)人: | 北京航空航天大学杭州创新研究院 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06K9/62;G06N3/12;G06F111/04 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 进化 算法 多数 特征 选择 方法 及其 系统 | ||
本发明公开了一种基于多任务进化算法的多数据集特征选择方法及其系统,属于特征选择技术领域。包括(1)数据集清洗和拆分;(2)进化算法初始化;(3)选择优秀个体构成子种群,生成子代个体;(4)子种群模型评估;(5)对每一个子数据集进行独立进化;(6)算法停止检查;(7)输出每个子数据集的特征选择结果及回归模型。本发明的特征选择方法能够同时对多个数据集进行特征选择,不仅支持在不同数据集之间传递共享的特征选择方案,对多数据集进行协同的特征选择,还支持各数据集针对各自场景进行独立进化。因此,本发明显著减少了消耗在重复操作上的计算开销,显著提高多数据集特征选择的计算效率。
技术领域
本发明属于特征选择技术领域,具体涉及一种基于多任务进化算法的多数据集特征选择方法及其系统。
背景技术
随着大数据和人工智能技术的快速发展,从海量数据中挖掘有用信息的重要性日益凸显。而随着数据在维度和深度上的指数增长,各类机器学习算法对计算资源的需求也显著增加,因此,数据降维成为降低机器学习的计算代价并提高模型精度的有效手段之一。作为常见的降维方法之一,特征选择是解决维数灾难的有效手段,对分类和回归问题具有重要的理论及应用价值。特征选择指从初始特征集合中依据既定规则筛选出特征子集的过程,其通过剔除冗余特征,以达到降低算法复杂度和提高算法性能的目的。
近年来,进化算法逐渐展现出对复杂非线性问题优秀的优化能力,已经在调度管理、组合优化和路径规划等领域获得了丰富的应用。在特征选择领域,进化算法可以利用启发式的随机搜索特性逐步选取特征,已经在许多测试数据集上展现了也优异的优化性能。
在实际的一些场景中,针对多个类型相似但场景不同的问题,采用多模型集成的方式可以提高模型在不同场景下的分类和拟合精度,例如需要采用回归模型对不同地区的租金进行预测,由于不同区域租金受到许多共同因素的影响,比如收入、教育、交通等;但是也受到某些该区域特有的因素所影响,比如地区文化、市政规划、机场建设、地铁线路规划等。因此,通过对每个省份或者城市进行独立建模,可以更精准的预测当地租房的价格变化。
目前,基于进化算法的特征选择技术仅支持处理单一数据集,即需要重复运行进化算法并消耗大量的计算资源。将传统的特征选择算法应用在多数据集上,多个数据集之间不能传递共享的特征选择方案,属于完全独立的单一数据集的特征选择。
发明内容
为了克服现有的基于进化算法的特征选择技术仅支持处理单一数据集,其针对多数据集和多模型的特征选择计算开销大,且多数据集特征选择不共享的问题,本发明提出了一种基于多任务进化算法的多数据集特征选择方法,设计了核心多任务进化模块使得进化算法能同时对多个数据集进行特征选择,不仅支持在不同数据集之间传递共享的特征选择方案,还支持各数据集针对各自场景进行独立进化。因此,本发明显著减少了消耗在重复操作上的计算开销,提高特征选择的效率。
为了实现上述目的,本发明采用如下技术方案:
本发明的其中一个目的在于提供一种基于多任务进化算法的多数据集特征选择方法,包括如下步骤:
步骤1:针对不同场景下的多回归模型集成任务,将该任务下的数据集根据不同的场景进行数据集划分,每一个场景均对应一个子数据集;
步骤2:初始化进化算法的环境参数及约束条件,并对子数据集中的特征进行编码;
步骤3:针对每一个场景下的子数据集,从父代种群中选择优异个体并形成子种群,并基于步骤2所述的进化算法生成子代种群个体;
在筛选子种群的过程中,根据父代种群中每一个个体在不同子数据集中的分类/拟合表现,在所有的子数据集中分别筛选对应数据集的优异个体;
步骤4:根据生成的子代种群个体所代表的特征,在每一个子数据集上进行回归模型的训练和k-折交叉检验,得到该特征组合下的回归模型精度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学杭州创新研究院,未经北京航空航天大学杭州创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110013279.7/2.html,转载请声明来源钻瓜专利网。