[发明专利]一种软件缺陷预测方法、装置、存储介质及电子设备在审

专利信息
申请号: 201810162377.5 申请日: 2018-02-27
公开(公告)号: CN108647138A 公开(公告)日: 2018-10-12
发明(设计)人: 张雪莹;李瑞贤;杨云祥;郭静;吉祥;胡校成;唐先超;宋超;江逸楠;段锐;阳兵 申请(专利权)人: 中国电子科技集团公司电子科学研究院
主分类号: G06F11/36 分类号: G06F11/36
代理公司: 工业和信息化部电子专利中心 11010 代理人: 张然
地址: 100041 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 预设 软件缺陷 原始数据集 存储介质 第一数据 电子设备 预测模型 原型数据 相似性确定 对应软件 算法计算 选取规则 样本数据 用户体验 预测结果 预测性能 预设距离 原始数据 预测 准确率 构建
【说明书】:

发明公开了一种软件缺陷预测方法、装置、存储介质及电子设备,该方法包括:按照第一预设选取规则在第一预设原始数据集中选择预定个数的样本数据,以得到第一原型数据集;按照第一预设距离算法计算第一预设原始数据集与第一原型数据集之间不相似性的第一数据集;将第一数据集中的数据输入到预设软件缺陷预测模型,以得到第一预设原始数据集对应软件的软件缺陷预测结果,其中,所示预设软件缺陷预测模型为根据预设不相似性构建的模型。通过运用本发明,能够根据不相似性确定软件是否存在缺陷,从根本上提升预测性能,准确率较高,用户体验较好,解决了现有技术的问题。

技术领域

本发明涉及数据处理领域,特别是涉及一种软件缺陷预测方法、装置、存储介质及电子设备。

背景技术

软件缺陷数据集中有缺陷的样本数量往往比无缺陷的样本数量少得多,因此,软件缺陷预测可被视作一个类不均衡学习问题。在类不均衡学习学习过程中,不同类别的误分代价也各不相等,其中少数类(有缺陷)的误分代价远高于多数类(无缺陷)的误分代价,为最大限度地降低误分代价,预测算法更注重提升有缺陷的少数类样本的预测准确率。实际上,传统的分类算法通常建立在类分布均衡且误分代价相等的前提下,以最小化分类误差为最终目标,因此直接采用决策树分类、神经网络、贝叶斯分类、支持向量机及k-最近邻分类等传统的机器学习算法并不能获得较好的软件缺陷预测性能。

近年来,类不均衡学习问题受到了学术界的广泛关注,机器学习和数据挖掘领域专家们从数据层和算法层两方面提出了许多行之有效的解决方法。

关于数据层方法,主要通过抽样或生成新样本的方式,使类分布恢复均衡,如随机欠抽样(RUS)和随机过抽样(ROS)。重复抽样可以平衡类分布,但欠抽样往往会忽略某些重要样本,导致信息缺失;反之,过抽样会引入大量副本,产生冗余信息,导致过拟合。

关于算法层方法,侧重于改进已有分类算法或研究新的分类算法,以更好地解决类不均衡学习问题。“One-Class Learning”方法,该方法仅在多数类上构建分类模型,难以准确预测少数类;组合学习方法,通过重复抽样构建多个分类模型、迭代更新训练样本的权重或组合多个决策树的方式,获得稳定的分类精度,如Bagging、Boosting及Random Forest等算法。特别是,当分类模型间存在显著差异时,组合分类模型比基本分类模型更准确,但其计算量大且复杂度较高;代价敏感分析,以最小化误分代价为学习目标,如MetaCost不依赖于分类算法,且可应用于任意形式的代价矩阵上,但如何确定代价矩阵目前仍然是一个难题。

因此,现有的类不均衡学习方法侧重于如何调整类分布或改进算法,无法从根本上提升该类问题的预测性能,预测准确率较低,用户体验较差。

发明内容

本发明提供一种软件缺陷预测方法、装置、存储介质及电子设备,用以解决现有技术的如下问题:现有的类不均衡学习方法侧重于如何调整类分布或改进算法,无法从根本上提升该类问题的预测性能,预测准确率较低,用户体验较差。

为解决上述技术问题,一方面,本发明提供一种软件缺陷预测方法,包括:按照第一预设选取规则在第一预设原始数据集中选择预定个数的样本数据,以得到第一原型数据集;按照第一预设距离算法计算所述第一预设原始数据集与所述第一原型数据集之间不相似性的第一数据集;将所述第一数据集中的数据输入到预设软件缺陷预测模型,以得到所述第一预设原始数据集对应软件的软件缺陷预测结果,其中,所示预设软件缺陷预测模型为根据预设不相似性构建的模型。

可选的,按照第一预设选取规则在第一预设原始数据集中选择预定个数的样本数据,以得到第一原型数据集之前,还包括:按照第二预设选取规则在第二预设原始数据集中选择预定个数的样本数据,以得到第二原型数据集;按照第二预设距离算法计算所述第二预设原始数据集与所述第二原型数据集之间不相似性的第二数据集;根据所述第二数据集中的数据和预设分类算法构建所述预设软件缺陷预测模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院,未经中国电子科技集团公司电子科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810162377.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top