[发明专利]一种基于数据类不平衡分布的即时软件缺陷预测方法在审
申请号: | 202111341822.2 | 申请日: | 2021-11-12 |
公开(公告)号: | CN114138632A | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 王兴起;许锴;魏丹;陈滨 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨舟涛 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 不平衡 分布 即时 软件 缺陷 预测 方法 | ||
1.一种基于数据类不平衡分布的即时软件缺陷预测方法,其特征在于,包含如下步骤:
步骤1)数据预处理;
计算度量之间的相关性,处理高度相关的度量,对度量执行对数转换;
步骤2)获得各样本的近邻集;
步骤3)识别并处理训练样本集中的噪声样本;
步骤3-1:计算训练样本集的缺陷密度;
假设原始训练集为T,其中有缺陷的样本为少数类,表示为T+;无缺陷的样本为多数类,表示为T-;使用公式(1)计算训练样本集的缺陷密度DT,其中nums(T+)表示有缺陷样本集T+中样本的数量,nums(T)表示原始训练集T的样本数量;
DT=nums(T+)/nums(T) (1)
步骤3-2:计算样本的缺陷密度;
通过公式(2)计算各个样本的近邻集的缺陷密度Di,其中Ynsj表示近邻集中第j个样本的标签,Ynsj为0表示近邻集的第j个样本为无缺陷样本,Ynsj为1表示近邻集的第j个样本为有缺陷样本;
步骤3-3:对样本进行区域划分;
如公式(3)所示,如果样本xi为无缺陷样本,通过对当前样本xi的近邻集的缺陷密度Di与训练样本集缺陷密度DT的比较,划分样本xi的区域;当缺陷密度Di大于训练样本集的缺陷密度DT,将样本xi划分到噪声区;当缺陷密度Di小于训练样本集的缺陷密度DT,将样本xi判断为非噪声区;如公式(4)所示,如果样本xi为有缺陷样本,当缺陷密度Di等于0时,也就是当前有缺陷样本xi的近邻集中全都是无缺陷样本,则判断样本xi处于噪声区;当缺陷密度Di大于0时,将样本xi划分到非噪声区;
无缺陷样本:
有缺陷样本:
步骤3-4:处理噪声区样本;
如公式(5)所示,丢弃处于噪声区的有缺陷样本;将噪声区的无缺陷样本的标签转换成有缺陷样本的标签,以此增加有缺陷样本的数量;
步骤4)识别并处理边界样本;
步骤4-1:通过步骤3)获得了相对干净的训练样本集T′后,进入数据处理的第二阶段,对处于边界区的无缺陷样本进行识别及处理;
步骤4-2:回到步骤3)重新计算各个样本的近邻集
步骤4-3:判断样本xi是否是无缺陷样本;
如果样本xi是无缺陷样本,进入步骤3-2计算当前样本xi的缺陷密度D′i;当样本xi的缺陷密度D′i大于0,也就是说,当前无缺陷样本周围的k个邻居中存在有缺陷样本,则认为该样本处于边界区域,丢弃处于边界区域的无缺陷样本,形成新的训练样本集T″;
步骤5)平衡数据集;
步骤6)使用随机森林训练模型。
2.根据权利要求1所述的一种基于数据类不平衡分布的即时软件缺陷预测方法,其特征在于步骤1所述的数据预处理的具体实施如下:
计算各个度量之间的相关性,由于NF和ND,REXP和EXP高度相关,ND和REXP被排除在外;由于LA和LD与LT高度相关,LA和LD通过除以LT归一化;由于LT和NUC与NF高度相关,LT和NUC通过除以NF归一化;对每个度量都执行对数转换,FIX除外。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111341822.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置