[发明专利]特征选择方法、装置、存储介质及电子设备在审
| 申请号: | 201811482814.8 | 申请日: | 2018-12-05 |
| 公开(公告)号: | CN109740762A | 公开(公告)日: | 2019-05-10 |
| 发明(设计)人: | 肖迪 | 申请(专利权)人: | 东软集团股份有限公司 |
| 主分类号: | G06N99/00 | 分类号: | G06N99/00 |
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曾尧;魏嘉熹 |
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征集合 频繁项集 特征选择 评价指标 存储介质 电子设备 候选特征 子集集合 并集 关联分析算法 有效地 空集 互补性 筛选 | ||
1.一种特征选择方法,其特征在于,包括:
获取候选特征子集集合;
根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集;
依次对每一频繁项集,执行特征选择操作:
若已选特征集合中未包含该频繁项集中的所有特征,则确定该频繁项集与所述已选特征集合的并集对应的评价指标;
若该评价指标优于所述已选特征集合对应的评价指标,则将所述并集作为新的已选特征集合;
其中,所述已选特征集合初始为空集,每次得到的所述新的已选特征集合作为针对下一频繁项集执行所述特征选择操作中的所述已选特征集合。
2.根据权利要求1所述的方法,其特征在于,所述获取候选特征子集集合,包括:
从原始特征集合中选取出多个特征子集并确定每一特征子集对应的评价指标;
按照评价指标由高到低的顺序,从所述多个特征子集集合中选取预设数量的特征子集作为候选特征子集,得到所述候选特征子集集合。
3.根据权利要求1所述的方法,其特征在于,所述根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集,包括:
获取所述候选特征子集集合中各个特征的支持度;
选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表,所述项头表包括至少一个特征和各个特征的支持度;
根据所述项头表和所述候选特征子集集合,建立FP树,所述FP树包括根节点和至少一个叶子节点,其中,所述根节点为无效值,每一叶子节点对应所述项头表中的一个特征和该特征的支持度;
逆序遍历项头表,根据所述FP树查找所述项头表中的各特征对应的条件模式基,并根据各特征的条件模式基建立该特征的条件FP树;
对各个条件FP树进行递归挖掘,得到至少一个频繁项集。
4.根据权利要求3所述的方法,其特征在于,所述根据关联分析算法对所述候选特征子集集合进行处理,得到至少一个频繁项集,还包括:
获取所述至少一个频繁项集中各特征的支持度,并再次执行所述选取支持度大于或等于预设最小支持度的特征并对选取出的特征按照支持度降序排列,建立项头表的步骤至所述对各个条件FP树进行递归挖掘,得到至少一个频繁项集的步骤。
5.根据权利要求1所述的方法,其特征在于,所述依次对每一频繁项集,执行特征选择操作,包括:
获取所述至少一个频繁项集中每个频繁项集的支持度;
按照支持度由高到低的顺序,依次对每一频繁项集执行所述特征选择操作。
6.根据权利要求5所述的方法,其特征在于,在所述按照支持度由高到低的顺序,依次对每一频繁项集执行所述特征选择操作之前,所述依次对每一频繁项集,执行特征选择操作,还包括:
针对每个频繁项集,根据以下公式对该频繁项集的支持度进行修正:
C′i=Ci+αni
其中,C′i为频繁项集i的修正后的支持度;Ci为获取到的频繁项集i的支持度;ni为频繁项集i包含的特征数量;α为预设平衡权重。
7.根据权利要求5所述的方法,其特征在于,所述特征选择操作还包括:
若该评价指标劣于所述已选特征集合对应的评价指标,则降低该频繁项集的支持度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811482814.8/1.html,转载请声明来源钻瓜专利网。





