[发明专利]一种基于特征集划分和集成学习的软件缺陷预测方法有效
| 申请号: | 202010177397.7 | 申请日: | 2020-03-13 |
| 公开(公告)号: | CN111400180B | 公开(公告)日: | 2023-03-10 |
| 发明(设计)人: | 李璐璐;任洪敏;朱云龙;卢晓喆 | 申请(专利权)人: | 上海海事大学 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F18/241;G06F18/214;G06N3/126 |
| 代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 徐雯琼;章丽娟 |
| 地址: | 201306 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 征集 划分 集成 学习 软件 缺陷 预测 方法 | ||
本发明公开了一种基于特征集划分和集成学习的软件缺陷预测方法,该方法将原始数据集划分为训练数据集和测试数据集,将训练数据集分为若干个特征子集;选择K个基分类器用于集成学习,再根据基分类器及其对应的权重合成每个特征子集的集成分类器;选择出与输入实例最相似的特征子集,并以其集成分类器对输入实例进行缺陷预测,建立软件缺陷预测模型;对测试数据集进行划分并寻找与输入实例最相似的特征子集;搜索质心集和权重集的最优取值,结合测试数据集的最相似特征子集,优化软件缺陷预测模型。其优点是:该方法不仅可以移除缺陷预测数据集中的冗余特征,减小算法的搜索空间,还可以有效缓解软件缺陷历史数据特征维度高的问题。
技术领域
本发明涉及软件缺陷预测技术领域,具体涉及一种基于特征集划分和集成学习的软件缺陷预测方法。
背景技术
软件缺陷预测的目的主要是通过历史的软件缺陷信息,使用相关技术区分软件模块为有缺陷模块或无缺陷模块,因此软件缺陷预测本质上也是一个二分类问题。通过缺陷预测能有效识别有缺陷的模块,从而降低由软件缺陷带来的各种风险和危害。目前很多机器学习算法已经用来构建预测模型,例如,由决策树C4.5算法产生的分类规则易于理解且学习速度快,经常被用来作为模型构建的基准比较算法;采用朴素贝叶斯算法构建模型,对类数据的不平衡性敏感度较低,并且预测性能出色;其他的机器学习算法如神经网络、支持向量机等都被用来构建软件缺陷预测模型,在特定的应用领域均获得了不错的预测性能。
然而,在现实世界中软件缺陷预测模型受到很多不利因素的影响,这些因素总是会降低模型的预测精度或者稳定性,其中影响最大的两个因素为数据集中类的不平衡问题和数据集内特征的高维度问题。
数据集中类的不平衡问题主要是,在很多软件缺陷数据集中无缺陷模块的样本数远大于有缺陷模块的样本数。在实际建模的过程中,传统的分类器会偏向于无缺陷的软件模块,这样分类器对于有缺陷的模块会产生不好的分类结果。
国内外学者相继提出了各种方法处理数据不平衡问题,目前这些方法大体上可以分为数据层面和算法层面。数据层面决策是从数据准备阶段入手,主要包括各种抽样方法,对原始不平衡的缺陷数据进行调整,从而得到平衡的数据。算法层面主要包括代价敏感学习方法、分类阈值移动方法和集成学习方法。数据层面的方法虽然可以一定程度减小数据不平衡问题,但需要在建模之前对数据集进行预处理,增加了缺陷预测的计算处理成本和时间成本。
除了数据不平衡问题,缺陷数据集内特征的高维度问题也是影响缺陷预测复杂度的重要因素。在缺陷预测中使用缺陷数据集中的软件度量元组成的度量向量作为输入,用做输入的软件度量元,同时数据集数据规模又是庞大的,数据集对应的原始特征空间总是具有很高的维度,并且拥有大量冗余数据,这在很大程度上增加了软件缺陷预测的难度。
发明内容
本发明的目的在于提供一种基于特征集划分和集成学习的软件缺陷预测方法,该方法对数据集进行特征子集划分,不仅可以移除缺陷预测数据集中的冗余特征,减小算法的搜索空间,还可以有效缓解软件缺陷历史数据特征维度高的问题;另一方面该方法采用集成学习技术集成不同基分类器的分类结果,可以有效克服数据集类不平衡造成的对有缺陷模块预测精度不高的问题。
为了达到上述目的,本发明通过以下技术方案实现:
一种基于特征集划分和集成学习的软件缺陷预测方法,该方法包含:
S1、从历史软件数据中获取原始数据集,并将所述原始数据集划分为训练数据集和测试数据集;
S2、将所述训练数据集划分为h个互斥的特征子集,每个特征子集由它的质心Ch来表示,所述训练数据集中所有特征子集质心的集合为质心集C;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010177397.7/2.html,转载请声明来源钻瓜专利网。





