[发明专利]一种基于GitHub的半监督异构软件缺陷预测方法有效

专利信息
申请号: 201910261507.5 申请日: 2019-04-02
公开(公告)号: CN110008584B 公开(公告)日: 2020-11-06
发明(设计)人: 荆晓远;孙莹;李娟娟;黄鹤;杨永光;姚永芳;彭志平 申请(专利权)人: 广东石油化工学院
主分类号: G06F30/27 分类号: G06F30/27;G06F11/36
代理公司: 广州润禾知识产权代理事务所(普通合伙) 44446 代理人: 凌衍芬
地址: 525099 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 github 监督 软件 缺陷 预测 方法
【说明书】:

发明公开了一种基于GitHub的半监督异构软件缺陷预测算法,包括以下步骤:首先是数据集收集,建立自己的数据库;对收集到的数据预处理;然后这里异构的数据处理,我们引入增强版的典型关联分析方法,它是由统一度量表示(UMR)和典型关联分析(CCA)组成;最后我们加入了代价敏感的核半监督判别方法,从而实现了基于GitHub的半监督异构软件缺陷预测算法,本发明的优点在于解决了软件缺陷预测中数据异构的问题以及首次提出了代价敏感的核半监督鉴别分析(CKSDA)技术,利用代价敏感的学习技术,解决不同的错误分类代价,实现了缺陷预测效果。

技术领域

本发明涉及软件缺陷预测方法,具体涉及一种基于GitHub的半监督异构软件缺陷预测方法。

背景技术

软件缺陷预测是当前软件工程数据领域中的一个研究热点。其希望就是能够在项目开发的早期阶段,预先识别出项目内的潜在缺陷程序模块,并且对这类的程序模块分配足够的测试资源来确保可以进行充分的代码审查或者是单元测试,最终达到提高软件产品质量的目的。目前大部分研究工作都集中关注同项目缺陷预测问题,即选择同一项目的部分数据集作为训练集来构建模型,并用剩余未选择的数据作为测试集来获得模型的预测能力。然而在实际的软件开发场景中,需要进行缺陷预测的目标项目可能是一个新启动的项目,并没有足够的历史数据来作为训练集和测试集。由于历史数据的缺少研究者们开始关注跨项目软件缺陷预测的问题,跨项目就是使用其他项目的训练数据来构建预测模型,并对一个全新项目进行缺陷预测。在大部分的情况下,不同项目的度量元取值分布具有显著的差异性,缺陷预测的数据存在类别不平衡问题。

在软件测试中,软件缺陷预测是非常重要的,它可以利用历史缺陷数据学习预测模型。当没有足够的历史缺陷数据建立准确的预测模型时,跨公司缺陷预测(Ccdp)和半监督缺陷预测(Ssdp)是两种可行的方法。来自开放源码项目(OSP)托管平台(如GitHub)的现有开放源码未标记数据就足够了,这些数据通常是异构的。目前,对于如何利用开放源码项目(OSP)的大量未标记异构数据进行缺陷预测模型的研究还很少。

发明内容

本发明的目的在于:针对现有技术存在的缺陷,提出一种基于GitHub的半监督异构软件缺陷预测方法,目的在于建立缺陷预测模型时,为半监督问题和异构问题提供一种方法,解决异构问题,同时提出了一种代价敏感的核半监督相关分析(CKSCA)方法来解决半监督的跨公司缺陷预测(ccdp)问题。

为达到上述目的,本发明是通过以下技术方案来实现的:

一种基于GitHub的半监督异构软件缺陷预测方法包括以下步骤:

步骤(1)、收集数据建立数据库;

步骤(2)、数据预处理,包括数据规范化和数据过滤;

步骤(3)、匹配源数据和目标数据,引入统一度量表示(UMR)和典型相关分析方法(CCA);

步骤(4)、半监督判别分析;

步骤(5)、核半监督判别分析;

步骤(6)、代价敏感核半监督判分析。

优选地,所述步骤(1)的具体做法是:

在GitHub上收集数据,所述收集数据包括项目选择、特征提取和清理数据集,所述项目选择包括选择3个语言标记(Python,Java,C)作为关键字,由“most star”排序标记,从排序列表的顶部筛选出20个项目,所述特征提取包括使用“Understand”工具,提取代码度量,所述代码度量为文件静态代码度量,使用Scitools获得代码度量标准,所述清理数据集包括采用人工筛选对缺失值和显著误差值进行筛选。

优选地,所述步骤(2)中数据预处理使用min-max规范化,给定一个度量x,规范化值x′,计算为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东石油化工学院,未经广东石油化工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910261507.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top