[发明专利]一种基于特征映射与属性补偿技术的软件缺陷预测模型在审
申请号: | 202110851716.2 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113626316A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 陈锦富;王小丽;蔡赛华;陈海波;张翅;徐家平;黄创飞 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 映射 属性 补偿 技术 软件 缺陷 预测 模型 | ||
1.一种基于特征映射和属性转换的软件缺陷预测模型,其特征包括如下步骤:
步骤1,利用交叉验证合理划分数据集,对测试所用到的样本集进行采样与归一化预处理,以得到更加平衡的缺陷数据集;
步骤2,应用属性补偿方法解决跨项目间数据分布差异问题,使目标项目的数据分布与源项目的数据分布更加契合;
步骤3,在获取到经过度量补偿技术处理过的样本集后,再利用迁移学习技术最小化源数据与目标数据的数据距离以得到更加相似的数据分布;
步骤4,根据步骤3得到的训练样本集与测试样本集,利用决策树分类模型对数据进行缺陷分类,根据预测结果进而评估模型的预测性能。
2.如权利要求1所述方法,其特征在于,所述步骤1的具体实现包括如下步骤:
步骤1.1,利用loadtxt()文件读取方法对模型性能进行验证所需的数据集进行合理划分,将相应的训练样本集和测试样本集中的度量数据和标签数据读取出来,以”,”为读取分割标识,读取数据的前N列作为度量数据存进x_list列表中,第N+1列的数据即为缺陷数据的标签存进y_list列表中;
步骤1.2,利用离差标准化方法对经过标准化操作的数进行归一化,将标准化后的数据转换到[0,1]内,得到规范化的训练集数据,从而让各度量属性的数据具有更强的可视化操作;
步骤1.3,利用SMOTE采样方法对训练数据进行过采样,有效缓解缺陷数据的类不平衡问题并提高数据集的训练精度,根据样本不平衡比例设置采样比例以确定采样倍率,对于少数类中的每一个样本,以欧式距离为标准计算它到少数类样本集中所有样本的距离,排序后得到该样本的k近邻进而扩充少数类的样本。
3.如权利要求1所述方法,其特征在于,所述步骤2的具体实现包括如下步骤:
步骤2.1,将经预处理后的训练数据样本集以列表的形式存储,针对目标训练集的每一个样例,用原始数据乘以一个权重值,该权重值为训练数据与目标数据均值之比,从而得到新的更适应源数据分布的目标数据集。同理针对源数据集中的所有样例,用目标数据与源数据均值之比作为源数据集为适应目标数据分配的新权重,从而得到一轮属性值转换后的同时适应源与目标数据的数据集,上述源与目标数据转换的计算方式为:
其中:
其中source[i,j]表示源项目数据中第i条数据实例的第j个度量值,metric_mean_source表示源项目所有数据实例在第j个度量中的均值;同理,target[i,j]表示目标项目数据中第i条数据实例的第j个度量值,metric_mean_target表示目标项目所有数据实例在第j个度量中的均值;
步骤2.2,用sour1[i,j]表示步骤2.1求解得到的所需新的源数据第i个数据实例中的第j个度量值,用metric_mean_source和metric_mean_target表示再次计算处理过后的源数据与目标数据第j个度量的均值,并对源数据重新做一次类似步骤2.1所做的数据处理,让源数据集针对目标数据的分布做属性值的二次转换,从而进一步提高源数据与目标数据的相似性与契合性,完成新的源与目标数据的二轮度量映射,sour1的计算方式为:
sour1[i,j]=(sour1[i,j]*metric_mean_target)/metric_mean_source。
步骤2.3,将经过属性值变换的源数据与目标数据作为新的迁移学习方法的参数传入,从而进行下一步基于特征映射的转换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110851716.2/1.html,转载请声明来源钻瓜专利网。