[发明专利]特征选择方法、装置、存储介质及电子设备在审
申请号: | 201811482814.8 | 申请日: | 2018-12-05 |
公开(公告)号: | CN109740762A | 公开(公告)日: | 2019-05-10 |
发明(设计)人: | 肖迪 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06N99/00 | 分类号: | G06N99/00 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曾尧;魏嘉熹 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征集合 频繁项集 特征选择 评价指标 存储介质 电子设备 候选特征 子集集合 并集 关联分析算法 有效地 空集 互补性 筛选 | ||
本公开涉及一种特征选择方法、装置、存储介质及电子设备,所述方法包括:获取候选特征子集集合;根据关联分析算法对候选特征子集集合进行处理,得到至少一个频繁项集;依次对每一频繁项集,执行特征选择操作:若已选特征集合中未包含该频繁项集中的所有特征,则确定该频繁项集与已选特征集合的并集对应的评价指标;若该评价指标优于已选特征集合对应的评价指标,则将并集作为新的已选特征集合;其中,已选特征集合初始为空集,每次得到的新的已选特征集合作为针对下一频繁项集执行特征选择操作中的已选特征集合。通过本公开的技术方案,以频繁项集为单位进行特征选择,考虑了特征之间的互补性,可以达到快速、有效地筛选较优特征的效果。
技术领域
本公开涉及机器学习领域,具体地,涉及一种特征选择方法、装置、存储介质及电子设备。
背景技术
在机器学习中,训练样本的特征往往会非常多,容易造成维度灾难,即当特征维度超过一定界限后,训练模型的性能随着特征维度的增加反而下降,而且维度越高,训练模型的时间开销越大。其中,导致训练模型下降的原因往往是因为这些高维度特征中含有无关特征和冗余特征。因此,如何在大量的特征中快速、有效地筛选出较优的特征,以便得到效果较好的训练模型,成为机器学习领域的研究重点。
相关技术中,通常以单一特征为处理单元进行特征筛选,该方式的效率低、收敛速度慢。
发明内容
为了克服相关技术中存在的问题,本公开提供一种特征选择方法、装置、存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种特征选择方法,包括:
获取候选特征子集集合;
根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集;
依次对每一频繁项集,执行特征选择操作:
若已选特征集合中未包含该频繁项集中的所有特征,则确定该频繁项集与所述已选特征集合的并集对应的评价指标;
若该评价指标优于所述已选特征集合对应的评价指标,则将所述并集作为新的已选特征集合;
其中,所述已选特征集合初始为空集,每次得到的所述新的已选特征集合作为针对下一频繁项集执行所述特征选择操作中的所述已选特征集合。
可选地,所述获取候选特征子集集合,包括:
从原始特征集合中选取出多个特征子集并确定每一特征子集对应的评价指标;
按照评价指标由高到低的顺序,从所述多个特征子集集合中选取预设数量的特征子集作为候选特征子集,得到所述候选特征子集集合。
可选地,所述根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集,包括:
获取所述候选特征子集集合中各个特征的支持度;
选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表,所述项头表包括至少一个特征和各个特征的支持度;
根据所述项头表和所述候选特征子集集合,建立FP树,所述FP树包括根节点和至少一个叶子节点,其中,所述根节点为无效值,每一叶子节点对应所述项头表中的一个特征和该特征的支持度;
逆序遍历项头表,根据所述FP树查找所述项头表中的各特征对应的条件模式基,并根据各特征的条件模式基建立该特征的条件FP树;
对各个条件FP树进行递归挖掘,得到至少一个频繁项集。
可选地,所述根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811482814.8/2.html,转载请声明来源钻瓜专利网。