[发明专利]一种改进基于相关性特征选择的特征过滤方法及装置在审
| 申请号: | 201910334368.4 | 申请日: | 2019-04-24 |
| 公开(公告)号: | CN110135469A | 公开(公告)日: | 2019-08-16 |
| 发明(设计)人: | 崔灿;刘斌;李国旗 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 曹鹏飞 |
| 地址: | 100089*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 特征选择 软件缺陷 特征过滤 预测模型 预处理 数据预处理 准确度 方法选择 冗余特征 软件预测 原始数据 相似度 构建 排序 过滤 改进 分类 预测 统计 | ||
1.一种改进基于相关性特征选择的特征过滤方法,其特征在于,包括:
将用于缺陷预测分类任务的N个数据集中类标签的数值类型转换为二元类型;
统计每个特征在原始数据集中的平均占比重率;
统计每个特征经过基础特征选择筛选后在数据集中的平均占比重率;
计算各个特征在原始数据集中的平均占比重率与用特征选择筛选后各个特征的平均占比重率的相似度;
将所述相似度按由大到小的顺序排列,选择所述相似度排名前K个特征作为特征选择结果,完成特征过滤。
2.如权利要求1所述的一种改进基于相关性特征选择的特征过滤方法,其特征在于,还包括:
将所述特征选择结果构成数据集,并根据机器学习算法构建缺陷分类预测模型,采用分类任务的性能评价指标对其性能进行评估。
3.如权利要求1所述的一种改进基于相关性特征选择的特征过滤方法,其特征在于,统计每个特征在原始数据集中的平均占比重率,包括:
统计每个数据集Si中所有特征的数量,记为MSi,i=1,2,…,N;MSi的最大值为k,0≤k≤N;
计算每个特征在所有原始数据集中所占的比重和,记为Cfj,计算如公式(1)所示:
其中,i表示当前数据集的索引编号,i=1,2,…,N;j表示特征索引编号,j=1,2,…,k;fj表示数据集中的每个特征;fji表示特征j是否出现在数据集i中;fji=1或0,表示出现或不出现;S′i表示每个数据集;MSi表示每个数据集中所有特征的数量;
计算每个特征在原始数据集中占有的平均比重率,记为Fj,计算如公式(2)所示:
其中,Cfj表示每个特征在所有原始数据集中所占的比重和;N表示数据集的数量;Si表示每个数据集;MSi表示每个数据集中所有特征的数量;
当某一特征在原始数据集中出现的比重和小于预设阈值,则删除所述某一特征。
4.如权利要求1所述的一种改进基于相关性特征选择的特征过滤方法,其特征在于,统计每个特征经过基础特征选择筛选后在数据集中的平均占比重率,包括:
使用基础特征选择,对所有数据集进行特征过滤,生成数据子集;
统计每个特征在所有数据子集中所占的比重和,如公式(3)所示,并计算选择的所有特征子集的数量均值,如公式(4)所示:
其中,S′i表示所有数据集经过基础特征选择筛选后剩余的特征子集,i=1,2,…,N;f′ji表示特征j是否出现在数据子集S′i中;fji=1或0,表示出现或不出现;表示表示特征子集的特征数量;表示每个特征在所有数据子集S′i中所占的比重和;
其中,表示特征子集的大小;N表示数据子集的数量;M0表示所有特征子集的数据的平均值。
计算每个特征在数据子集中的平均占比重率,记为Pj,计算如公式(5)所示:
表示每个特征在所有数据子集S′i中所占的比重和;N表示数据子集的数量;Pj表示每个特征在数据子集中的平均占比重率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910334368.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤矸石的识别方法
- 下一篇:一种基于多模态车辆特征识别的车辆特征融合系统





