[发明专利]一种跨项目软件缺陷预测方法及装置在审
申请号: | 202110704103.6 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113360392A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 邢颖;林婉婷;钱晓萌 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62;G06Q10/04;G06Q10/10 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 项目 软件 缺陷 预测 方法 装置 | ||
1.一种跨项目软件缺陷的预测方法及装置,其特征在于,包括:
对源项目和目标项目的类标进行移除;
对移除类标后的源项目和目标项目数据进行合并,得到合并后的新数据集;
对合并后的新数据集进行聚类分析;
根据聚类分析结果对项目数据的特征进行选择;
使用选择后的特征对源项目和目标项目数据集进行过滤;
对源项目数据集进行采样生成新的样本;
将新的样本加入到过滤后的源项目数据集中;
将过滤后的源项目数据集作为训练集输入到分类器中;
分类器在过滤后的源项目数据集上进行训练;
将训练完成的分类器在过滤后的目标项目数据集进行分类预测;
输出分类的结果。
2.根据权利要求1所述的跨项目软件缺陷的预测方法,其特征在于,对特征进行聚类分析过程,包括:
选择若干个样本点作为初始凝聚点;
计算样本点到各个凝聚点的欧氏距离;
根据就近原则对样本点分类;
计算当前类的中心位置(均值)作为新的凝聚点;
判断当前凝聚点和新的凝聚点是否一致;
若否,将当前凝聚点更新为新的凝聚点;
若是,结束聚类。
3.根据权利要求2所述的对特征进行聚类分析过程,其特征在于,判断当前凝聚点和新的凝聚点是否一致,判断为否,将当前凝聚点更新为新的凝聚点之后,还包括:
若否,将当前凝聚点更新为新的凝聚点;
重复计算样本点到各个凝聚点的欧氏距离;根据就近原则对样本点分类;计算当前类的中心位置(均值)作为新的凝聚点;判断当前凝聚点和新的凝聚点是否一致;直至判断当前凝聚点和新的凝聚点是否一致结果为是。
4.根据权利要求2所述的对特征进行聚类分析过程,其特征在于,对特征进行选择,包括:
对聚类得到的类进行排序;
根据特征数量和类中样本占总样本比例确定特征选择数量;
根据特征在各类中分布情况确定特征权重;
对带有权重的特征进行排序;
按照特征选择数量选择排序在前的若干个特征。
5.根据权利要求1所述的跨项目软件缺陷的预测方法,其特征在于,对源项目数据集进行采样生成新的样本,包括:
计算样本不平衡比例,确定采样倍率;
根据表达式列表中的等式计算过滤后的源项目数据集中的每个少数类样本之间的欧氏距离;
获取距离每个少数类样本最近的若干个近邻样本;
根据采样倍率随机选择近邻样本中的个体;
根据表达式列表中的等式构建新的样本。
6.根据权利要求1所述的跨项目软件缺陷的预测方法,其特征在于,分类器的训练过程,包括:
分类器对源项目数据集中的样本进行分类;
判断样本是否分类错误;
若否,则该样本的权重不变;
若是,则提升该样本权重;
判断是否到达设定的迭代次数;
若否,数据集权重更新;
若是,训练完成。
7.根据权利要求5所述的分类器训练过程,其特征在于,判断是否到达设定的迭代次数,判断为否,数据集权重更新之后,还包括:
重复分类器对源项目数据集中的样本进行分类;判断样本是否分类错误;若否,则该样本的权重不变;若是,则提升该样本权重;判断是否到达设定的迭代次数;直到判断是否到达设定的迭代次数判断结果为是。
8.根据权利要求1所述的跨项目软件缺陷的预测方法,其特征在于,将训练完成的分类器在过滤后的目标项目数据集进行分类预测,包括:
将过滤后的目标项目数据集中样本输入到分类器中;
分类器判断样本是否有缺陷;
若否,则标记该样本没有缺陷;
若是,则标记该样本有缺陷。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110704103.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:列车逃生门解锁系统及方法
- 下一篇:废乳化液渣处置系统及方法