[发明专利]基于改进哈里斯鹰算法的特征选择方法在审
| 申请号: | 202111405009.7 | 申请日: | 2021-11-24 |
| 公开(公告)号: | CN114117876A | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 周士华;邹乐旺;吕卉 | 申请(专利权)人: | 大连大学 |
| 主分类号: | G06F30/25 | 分类号: | G06F30/25;G06N3/00;G06F111/08 |
| 代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
| 地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 改进 里斯 算法 特征 选择 方法 | ||
本发明公开了基于改进哈里斯鹰算法的特征选择方法,包括:随机构造初始的特征子集;通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优;利用目标函数获取哈里斯鹰特征子集的适应度,并确定其个体最优与全局最优;根据所述全局最优输出特征子集。本发明其将二阶分类错误率与特征子集长度的加权作为评估函数,通过改进哈里斯鹰优化算法迭代寻优,筛选出质量较佳的特征子集。
技术领域
本发明涉及特征选择技术领域,具体来说是针对分类不平衡问题,使用改进哈里斯鹰优化算法进行特征选择的方法。
背景技术
特征选择是机器学习领域数据预处理的重要方法之一。但由于特征选择本身的性质是个NP难问题,即特征数为n时,搜索空间为2n;导致研究者们只能退而求其次,使用近似算法获取特征选择问题的近似最优解,这也使得群体智能优化算法在特征选择问题中得到广泛应用。
另一方面,由于数据集本身的特性,会导致部分分类数据样本远远少于其它分类数据,这将大大影响算法的分类准确性,而且仅仅考虑分类错误率会使得选择到的特征子集中包含较多的冗余特征,此时大大提高了算法的计算复杂度,这一点对于高维数据尤为明显。
发明内容
本发明针对分类不平衡问题,提出了基于改进哈里斯鹰优化算法的特征选择方法,其将二阶分类错误率与特征子集长度的加权作为评估函数,通过改进哈里斯鹰优化算法迭代寻优,筛选出质量较佳的特征子集。
为实现上述目的,本申请提出基于改进哈里斯鹰算法的特征选择方法,包括:
随机构造初始的特征子集;
通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优;
利用目标函数获取哈里斯鹰特征子集的适应度,并确定其个体最优与全局最优;
根据所述全局最优输出特征子集。
进一步的,通过改进哈里斯鹰优化算法对所述特征子集进行迭代寻优,具体为:
将每一个特征子集对应的看成一个粒子,在粒子初始化时,其维度根据数据集的特征数确定,其值则随机初始化为[0,1]之间的随机数,若值大于等于0.5则表示该特征选取为有用特征,否则表示不选取。例如下表所示:
一个特征数量为9的数据集,则粒子维度为9;随机初始化其值,根据结果可知,特征4、特征6、特征8、特征9选取为有用特征。
特征选择初期阶段,要求算法有较强的搜索能力,后期要求算法有较强的开发能力。据此,本申请针对哈里斯鹰算法作如下改进:
设粒子在t时刻的位置为X(t),粒子的全局最优位置为gbest,粒子个体最优位置为pbest;当控制因子Cr值大于[0,1]间的随机数 rand时,使用下式更新粒子位置:
其中d代表粒子的维度,范围是[1,D]中的任意整数,这里的D是粒子搜索空间的总维度;rand是在区间(0,1)内均匀分布的随机数; i代表当前粒子的索引号;当控制因子Cr值小于等于[0,1]间的随机数 rand时,使用下式更新粒子位置:
Y=gbest-E*(gbest-Xi) (3)
temp1=gbest-α1*|gbest-Xi| (5)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111405009.7/2.html,转载请声明来源钻瓜专利网。





