[发明专利]基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法有效
申请号: | 201911041662.2 | 申请日: | 2019-10-30 |
公开(公告)号: | CN110837884B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 张戈;王建林;阎朝坤;侯金翠;罗慧敏 | 申请(专利权)人: | 河南大学 |
主分类号: | G06N3/006 | 分类号: | G06N3/006;G16B25/00 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 张立强 |
地址: | 475001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 二元 磷虾 算法 信息 增益 有效 混合 特征 选择 方法 | ||
本发明提供一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法。该算法包括:步骤1、采用基于信息增益算法的特征排序策略对种群中的N个个体进行随机初始化;步骤2、采用设定的适应度函数计算所述种群中每个个体的适应度值,将种群中适应度值最大的个体所表示的解作为种群中的全局最优解;步骤3、使用改进的二元磷虾群算法更新种群,并更新种群中每个个体的适应度值,更新种群中的全局最优解;步骤4、以步骤3作为一次迭代,重复进行步骤3,直至当前迭代次数达到设定的迭代次数。通过10‑折交叉在九个公开生物医学数据集上测试验证,本发明可以有效地简化基因表达水平的数量,并且与其他特征选择方法相比获得高分类准确度。
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法。
背景技术
随着生物医学中DNA微阵列技术的发展,积累了大规模高维度小样本微阵列数据,如肺癌微阵列数据集,包括181个样本,每个样本包含12533个特征。数据的高维小样本特征对于基因分析和疾病诊断带来了极大的挑战。高维小样本数据也给现有的挖掘和学习算法带来了巨大的挑战。随着数据维度的急剧增加,大量的冗余信息和无关信息通常也会随之产生,这些信息可能极大降低机器学习算法的性能,提高计算复杂度,造成“维数灾难”,同时标记信息样本的缺失,易产生“过拟合”现象,降低学习模型的预测能力。特征选择是解决高维小样本问题的一种有效手段,它可以去除大量无关和冗余的特征,寻找与分类任务强相关的特征子集,目的是为了减少算法运行时间,提高预测精度。因此在处理高维小样本数据时,特征选择对于机器学习显得尤为重要,在很多领域越来越受到人们的重视。
特征选择技术最早出现于上世纪60年代,它的本质就是为了从原始数据的特征集合当中,选择符合某种评定标准的最优特征子集,以便用于进行分类或者回归的任务。特征选择是一个过程,它是从原始的大量数据集中选择具有代表性的特征子集从而实现对未知数据的预测和分析。特征选择是一项艰巨的任务,主要是由于搜索空间较大,对于具有n个特征的数据集,可能的解决方案总数为2n。
随着数据收集技术的进步和这些问题的复杂性的增加,随着n在许多领域的增加,任务变得越来越具有挑战性。参考“梁伍七等.特征选择算法研究综述[J].安徽广播电视大学学报.2019.07.15”,目前,按照搜索策略对特征选择算法进行分类,主要有三种基于不同搜索策略的特征选择算法:基于穷尽搜索策略的特征选择算法、基于随机搜索策略的特征选择算法和基于元启发式搜索策略的特征选择算法,具体如下:
(1)基于穷尽搜索策略的特征选择算法:穷举法和分支定界法是全局最优式主要采用的方法。穷举法也可以称为耗尽式搜索,通过搜索每一个特征子集来选取符合要求的最优特征子集,例如回溯法,因为它可以遍历所有特征集合,因此一定能够找到全局最优特征子集。但若是原始特征数目很大,搜索空间自然也会变大,耗尽式搜索的执行效率也会降低,并不实用。分支定界法是通过剪枝操作来缩短搜索时间,也是目前全局搜索中唯一可以获得最优结果的办法,但是它要求在搜索开始前先预先设定最优特征子集的数目而且评价函数要具有单调性。同时,当等待处理的特征具有较高的维度时,需要执行多次,这些要求都限制了它的应用。
(2)基于随机搜索策略的特征选择算法:它在搜索的过程中将特征选择与遗传算法(GA)、模拟退火(SA)、禁忌搜索(TS)等结合,通过概率和采样过程为理论支撑。根据分类的有效性对每个待选特征进行权重赋值,且根据定义的或者自适应获取的阈值对特征的重要性进行判断,将权值超出阈值的特征输出。随机搜索方法将分类的性能作为评判标准,或得了比较好的应用效果。但是,存在时间复杂度高,不能保证输出的特征集合就是最优特征子集的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911041662.2/2.html,转载请声明来源钻瓜专利网。