[发明专利]一种基于数据欠采样和集成学习的软件缺陷数目预测方法有效

申请号：	201710548391.4	申请日：	2017-07-06
公开（公告）号：	CN107391452B	公开（公告）日：	2020-01-07
发明（设计）人：	余啸;周培培;刘进;崔晓晖;伍蔓;井溢洋	申请（专利权）人：	武汉大学
主分类号：	G06F17/18	分类号：	G06F17/18
代理公司：	42222 武汉科皓知识产权代理事务所(特殊普通合伙)	代理人：	鲁力
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明针对软件缺陷数据集中数据极度不平衡会降低软件缺陷数目预测模型的性能的问题，提出了一种基于数据欠采样和集成学习的软件缺陷数目预测方法。本发明设计了合理的不平衡数据处理策略，首先利用随机欠采样技术通过删除缺陷数据集中缺陷数目为零的软件模块得到相对平衡的新数据集，然后利用相对平衡的缺陷数据集训练出若干个弱的软件缺陷数目预测模型，最后集成这些弱的软件缺陷数目预测模型来预测待预测的软件模块的缺陷数目。本发明的技术方案既能够解决缺陷数据集中数据不平衡的问题，又能够结合多个弱的预测模型来提高软件缺陷数目预测模型的性能。
搜索关键词：	一种基于数据采样集成学习软件缺陷数目预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于数据欠采样和集成学习的软件缺陷数目预测方法，其特征是，包括以下步骤：/n步骤1，挖掘软件历史数据，从中抽取出有用的软件模块；软件模块粒度根据实际应用场景，设置为文件、包、类或函数；然后标记这些软件模块的缺陷数目；/n步骤2，提取软件模块中与软件缺陷有关的特征，提取了19个特征：加权方法数wmc，继承树深度dit，孩子数noc，对象类之间的耦合度cbo，类的响应rfc，内聚缺乏度lcom，传入耦合ca，传出耦合ce，公开方法数npm，代码行数loc，数据访问度量dam，聚合度量moa，功能抽象度量mfa，方法间的内聚度cam，继承耦合ic，方法间耦合cbm，平均方法复杂度amc，最大McCabe环形复杂度max_cc，平均McCabe环形复杂度avg_cc；/n抽取了n个软件模块后，形成了包含有n个软件模块数据的软件缺陷数据集S，每个软件模块数据由一个19维的特征向量和该模块的缺陷数目组成；这n个软件模块中，第i个软件模块表示为M

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710548391.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据欠采样和集成学习的软件缺陷数目预测方法有效

专利文献下载