[发明专利]一种改进基于相关性特征选择的特征过滤方法及装置在审
申请号: | 201910334368.4 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110135469A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 崔灿;刘斌;李国旗 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 曹鹏飞 |
地址: | 100089*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征选择 软件缺陷 特征过滤 预测模型 预处理 数据预处理 准确度 方法选择 冗余特征 软件预测 原始数据 相似度 构建 排序 过滤 改进 分类 预测 统计 | ||
本发明公开了一种改进基于相关性特征选择的特征过滤方法及装置,该方法针对软件缺陷预测中的分类任务,通过统计使用CFS方法选择的各个特征的占比重率与特征在原始数据集中占比重率来计算两者的相似度,并通过排序选出排名前K个特征,解决了特征选择中过滤方法效率高但预测模型性能差的问题,并且实现对软件预测模型的数据预处理指导,满足在数据充足但数据中存在无关特征或冗余特征情况下,对数据进行预处理,提高数据质量的需求;另一方面,该方法简单、容易实现、运行时间短,构建的软件缺陷预测模型准确度高。
技术领域
本发明涉及软件缺陷预测技术领域,特别涉及一种改进基于相关性特征选择的特征过滤方法及装置。
背景技术
近年来,软件缺陷预测已经在软件工程中成为一个活跃的领域,通过软件之前版本历史知识或其他软件的相关缺陷知识对新开发软件或被测软件缺陷进行预测,可以预先了解软件各个模块(或类,或子系统,或函数)的质量状况。这样,可以为软件测试人员、管理人员、可靠性设计人员等相关人员提供一定的指导,使其合理地分配相关的人力、资源,节约开发成本,提高软件开发效率。
缺陷预测最主要的部分是数据,数据的质量决定了预测的准确度。而软件缺陷相关数据往往包含多个度量元和缺陷类标签,类标签通常为二值型或数值型。由于收集的缺陷数据中特征维度很高,因此,有些特征与特征之间有很强的关联性(冗余性),而有的特征与类之间存在无关性。无论是特征冗余还是无关,都有可能会降低构建的软件缺陷预测模型的性能,从而导致预测准确度降低。因此,对特征进行过滤、筛选,即对数据进行预处理,提高数据质量的目的是很有必要的。
目前,已经有很多学者提出了不同的特征选择方法,包括过滤法(filter)和包装法(wrapper)。过滤法是指通过使用相关性等指标对软件的特征进行评分,选出分数大于阈值或者排名前K个的特征作为构建模型的特征。例如,基于相关性特征选择方法(correlation based feature selection,简称CFS)(Hall M A,Smith L A.FeatureSelection for Machine Learning:Comparing a Correlation-Based Filter Approachto the Wrapper.[C]//Twelfth International Florida Artificial IntelligenceResearch Society Conference.DBLP,1999.)。包装法与过滤法不同,该方法是考虑后续使用的学习器,选择特征子集,以学习器的性能评价指标作为特征子集的评价标准。如:序列化前向选择(Sequential forward selection,简称SFS)(Cotter S F,Adler R,Rao R D,et al.Forward sequential algorithms for best basis selection[J].Vision,Imageand Signal Processing,IEE Proceedings,1999,146(5):235-244.)、序列化后向消除(Sequential backward elimination,简称SBE)(J.Kittler,Pattern Recognition andSignal Processing,Alphen aan den Rijn,The Netherlands:Sijthoff and Noordhoff,1978,ch.Feature Set Search Algorithms,pp.41-60.)、束搜索(beam search)(W.Siedelecky and J.Sklansky.On automatic feature selection.InternationalJournal of Pattern Recognition,1988,Vol.2,pp 197-220)。包装法由于涉及后续使用的学习器,方法复杂,且运行时间长。通常容易适应学习器,性能较好。过滤法不涉及后续的学习器,方法具有简单、易用、容易理解、运行时间短等优点,但往往在学习模型时性能不高。而成本和效率在软件开发过程中是软件相关人员最为在意的一点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910334368.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤矸石的识别方法
- 下一篇:一种基于多模态车辆特征识别的车辆特征融合系统