[发明专利]一种基于数据类不平衡分布的即时软件缺陷预测方法在审

专利信息
申请号: 202111341822.2 申请日: 2021-11-12
公开(公告)号: CN114138632A 公开(公告)日: 2022-03-04
发明(设计)人: 王兴起;许锴;魏丹;陈滨 申请(专利权)人: 杭州电子科技大学
主分类号: G06F11/36 分类号: G06F11/36;G06K9/62
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 杨舟涛
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 数据 不平衡 分布 即时 软件 缺陷 预测 方法
【权利要求书】:

1.一种基于数据类不平衡分布的即时软件缺陷预测方法,其特征在于,包含如下步骤:

步骤1)数据预处理;

计算度量之间的相关性,处理高度相关的度量,对度量执行对数转换;

步骤2)获得各样本的近邻集;

步骤3)识别并处理训练样本集中的噪声样本;

步骤3-1:计算训练样本集的缺陷密度;

假设原始训练集为T,其中有缺陷的样本为少数类,表示为T+;无缺陷的样本为多数类,表示为T-;使用公式(1)计算训练样本集的缺陷密度DT,其中nums(T+)表示有缺陷样本集T+中样本的数量,nums(T)表示原始训练集T的样本数量;

DT=nums(T+)/nums(T) (1)

步骤3-2:计算样本的缺陷密度;

通过公式(2)计算各个样本的近邻集的缺陷密度Di,其中Ynsj表示近邻集中第j个样本的标签,Ynsj为0表示近邻集的第j个样本为无缺陷样本,Ynsj为1表示近邻集的第j个样本为有缺陷样本;

步骤3-3:对样本进行区域划分;

如公式(3)所示,如果样本xi为无缺陷样本,通过对当前样本xi的近邻集的缺陷密度Di与训练样本集缺陷密度DT的比较,划分样本xi的区域;当缺陷密度Di大于训练样本集的缺陷密度DT,将样本xi划分到噪声区;当缺陷密度Di小于训练样本集的缺陷密度DT,将样本xi判断为非噪声区;如公式(4)所示,如果样本xi为有缺陷样本,当缺陷密度Di等于0时,也就是当前有缺陷样本xi的近邻集中全都是无缺陷样本,则判断样本xi处于噪声区;当缺陷密度Di大于0时,将样本xi划分到非噪声区;

无缺陷样本:

有缺陷样本:

步骤3-4:处理噪声区样本;

如公式(5)所示,丢弃处于噪声区的有缺陷样本;将噪声区的无缺陷样本的标签转换成有缺陷样本的标签,以此增加有缺陷样本的数量;

步骤4)识别并处理边界样本;

步骤4-1:通过步骤3)获得了相对干净的训练样本集T′后,进入数据处理的第二阶段,对处于边界区的无缺陷样本进行识别及处理;

步骤4-2:回到步骤3)重新计算各个样本的近邻集

步骤4-3:判断样本xi是否是无缺陷样本;

如果样本xi是无缺陷样本,进入步骤3-2计算当前样本xi的缺陷密度D′i;当样本xi的缺陷密度D′i大于0,也就是说,当前无缺陷样本周围的k个邻居中存在有缺陷样本,则认为该样本处于边界区域,丢弃处于边界区域的无缺陷样本,形成新的训练样本集T″;

步骤5)平衡数据集;

步骤6)使用随机森林训练模型。

2.根据权利要求1所述的一种基于数据类不平衡分布的即时软件缺陷预测方法,其特征在于步骤1所述的数据预处理的具体实施如下:

计算各个度量之间的相关性,由于NF和ND,REXP和EXP高度相关,ND和REXP被排除在外;由于LA和LD与LT高度相关,LA和LD通过除以LT归一化;由于LT和NUC与NF高度相关,LT和NUC通过除以NF归一化;对每个度量都执行对数转换,FIX除外。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111341822.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top