[发明专利]一种多源异构跨项目软件缺陷预测方法在审
| 申请号: | 202210541022.3 | 申请日: | 2022-05-17 |
| 公开(公告)号: | CN114968774A | 公开(公告)日: | 2022-08-30 |
| 发明(设计)人: | 吴玉美;姚京秀;王江山;胡峥涛;于永利 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F11/36 | 分类号: | G06F11/36;G06N20/00 |
| 代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 符继超 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 多源异构跨 项目 软件 缺陷 预测 方法 | ||
1.一种多源异构跨项目软件缺陷预测方法,其特征在于,包括:
将多个源项目原始缺陷数据与目标项目原始缺陷数据进行数据标准化;
对标准化后的数据进行样本标签标记;
将样本标签处理后的源项目缺陷数据和目标项目缺陷数据进行类不平衡处理;
初始化各个源项目缺陷数据的权重;
将类不平衡处理后的源项目缺陷数据和目标项目缺陷数据作为多源谱嵌入映射算法的输入,输出源项目的的最优映射数据和目标项目的最优映射数据;
根据样本标签标记分别对源项目的的最优映射数据和目标项目的最优映射数据进行标记选择,选择出源项目原始数据和目标项目原始数据;
基于项目间相似性度量方法度量每个源项目原始数据和目标项目原始数据之间的距离,根据度量值更新源项目缺陷数据的权重;
将源项目的的最优映射数据作为机器学习模型的输入进行训练,并基于目标项目原始数据进行模型预测。
2.根据权利要求1所述的一种多源异构跨项目软件缺陷预测方法,其特征在于,多源谱嵌入映射算法具体包括以下步骤:
初始化最优特征空间维数k,核函数为K(x,x);
剔除源项目缺陷数据样本和目标项目缺陷数据样本中的重复样本和含缺失值的样本;
构造矩阵B和对称矩阵A:
其中,n为源项目缺陷数据的样本数量,矩阵A内子矩阵计算公式如下:
i,j=1,2,…,n;
其中,Si表示第i个源项目缺陷数据,T表示目标项目缺陷数据,令Φ(·)表示一个映射函数,和分别表示源数据和目标数据上的映射结果,和表示nsi×p的空间和nT×q的空间,K(X,X)=Φ(X)ΦT(X),权重参数β为一个超参数;
计算对称矩阵A的前k个特征值和对应的特征向量V,k为对称矩阵A特征值大于0.001时的个数;
计算最优投影BΦ(T)和
其中l是矩阵V的行数,例如表示矩阵V中第行第k列的值。
3.根据权利要求1所述的一种多源异构跨项目软件缺陷预测方法,其特征在于,具体采用z-score或最大最小标准化方法进行数据标准化。
4.根据权利要求1所述的一种多源异构跨项目软件缺陷预测方法,其特征在于,对标准化后的数据进行样本标签标记具体包括:
分别在源项目原始缺陷数据样本矩阵与目标项目原始缺陷数据样本矩阵中增加一列作为样本标签,样本标签内容为1和0,1表示真实的原始数据,0表示非真实的生成数据。
5.根据权利要求1所述的一种多源异构跨项目软件缺陷预测方法,其特征在于,类不平衡处理具体采用SMOTE过采样、随机欠采样或过采样与欠采样相结合的方法。
6.根据权利要求1所述的一种多源异构跨项目软件缺陷预测方法,其特征在于,初始化各个源项目缺陷数据的权重,具体为1/n,n为源项目缺陷数据的数量。
7.根据权利要求1所述的一种多源异构跨项目软件缺陷预测方法,其特征在于,项目间相似性度量方法采用欧氏距离、余弦距离、KL散度或Wasserstein距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210541022.3/1.html,转载请声明来源钻瓜专利网。





