首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种改进基于相关性特征选择的特征过滤方法及装置在审

申请号：	201910334368.4	申请日：	2019-04-24
公开（公告）号：	CN110135469A	公开（公告）日：	2019-08-16
发明（设计）人：	崔灿;刘斌;李国旗	申请（专利权）人：	北京航空航天大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	北京慕达星云知识产权代理事务所(特殊普通合伙) 11465	代理人：	曹鹏飞
地址：	100089***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	特征选择软件缺陷特征过滤预测模型预处理数据预处理准确度方法选择冗余特征软件预测原始数据相似度构建排序过滤改进分类预测统计
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种改进基于相关性特征选择的特征过滤方法，其特征在于，包括：

将用于缺陷预测分类任务的N个数据集中类标签的数值类型转换为二元类型；

统计每个特征在原始数据集中的平均占比重率；

统计每个特征经过基础特征选择筛选后在数据集中的平均占比重率；

计算各个特征在原始数据集中的平均占比重率与用特征选择筛选后各个特征的平均占比重率的相似度；

将所述相似度按由大到小的顺序排列，选择所述相似度排名前K个特征作为特征选择结果，完成特征过滤。

2.如权利要求1所述的一种改进基于相关性特征选择的特征过滤方法，其特征在于，还包括：

将所述特征选择结果构成数据集，并根据机器学习算法构建缺陷分类预测模型，采用分类任务的性能评价指标对其性能进行评估。

3.如权利要求1所述的一种改进基于相关性特征选择的特征过滤方法，其特征在于，统计每个特征在原始数据集中的平均占比重率，包括：

统计每个数据集S_i中所有特征的数量，记为M_Si,i＝1,2,…,N；M_Si的最大值为k，0≤k≤N；

计算每个特征在所有原始数据集中所占的比重和，记为Cf_j，计算如公式(1)所示：

其中，i表示当前数据集的索引编号，i＝1,2,…,N；j表示特征索引编号，j＝1,2,…,k；f_j表示数据集中的每个特征；f_ji表示特征j是否出现在数据集i中；f_ji＝1或0，表示出现或不出现；S′_i表示每个数据集；M_Si表示每个数据集中所有特征的数量；

计算每个特征在原始数据集中占有的平均比重率，记为F_j，计算如公式(2)所示：

其中，Cf_j表示每个特征在所有原始数据集中所占的比重和；N表示数据集的数量；S_i表示每个数据集；M_Si表示每个数据集中所有特征的数量；

当某一特征在原始数据集中出现的比重和小于预设阈值，则删除所述某一特征。

4.如权利要求1所述的一种改进基于相关性特征选择的特征过滤方法，其特征在于，统计每个特征经过基础特征选择筛选后在数据集中的平均占比重率，包括：

使用基础特征选择，对所有数据集进行特征过滤，生成数据子集；

统计每个特征在所有数据子集中所占的比重和，如公式(3)所示，并计算选择的所有特征子集的数量均值，如公式(4)所示：

其中，S′_i表示所有数据集经过基础特征选择筛选后剩余的特征子集，i＝1,2,…,N；f′_ji表示特征j是否出现在数据子集S′_i中；f_ji＝1或0，表示出现或不出现；表示表示特征子集的特征数量；表示每个特征在所有数据子集S′_i中所占的比重和；

其中，表示特征子集的大小；N表示数据子集的数量；M0表示所有特征子集的数据的平均值。

计算每个特征在数据子集中的平均占比重率，记为P_j，计算如公式(5)所示：

表示每个特征在所有数据子集S′_i中所占的比重和；N表示数据子集的数量；P_j表示每个特征在数据子集中的平均占比重率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910334368.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种煤矸石的识别方法
下一篇：一种基于多模态车辆特征识别的车辆特征融合系统

同类专利

专利分类

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top