[发明专利]一种基于双通道卷积神经网络的重复缺陷报告检测方法有效
申请号: | 201910474540.6 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110188047B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 徐玲;何健军;帅鉴航;杨梦宁;张小洪;洪明坚;葛永新;杨丹;王洪星;黄晟;陈飞宇 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06N3/0464 |
代理公司: | 重庆晟轩知识产权代理事务所(普通合伙) 50238 | 代理人: | 王海凤 |
地址: | 400044 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双通道 卷积 神经网络 重复 缺陷 报告 检测 方法 | ||
本发明涉及一种基于双通道卷积神经网络的重复缺陷报告检测方法,包括三个步骤,数据准备、建立CNN模型和待预测缺陷报告预测;在数据准备,对重复报告有用的字段,从缺陷报告中提取出来,对每一个报告,结构化信息和非结构化信息一起放入一个文本发明档中,经过预处理,每个由文本表示的报告被转化成一个单通道矩阵,把单通道矩阵组合成双通道矩阵,然后把一部分作为训练集,剩下的部分作为验证集。在CNN模型建立,以训练集为输入训练模型。在待预测缺陷报告预测阶段,训练好的模型加载预测一个未知缺陷报告与已知缺陷报告组成的缺陷报告对的相似度,这个相似度是一个表示缺陷报告对重复可能性的概率。本发明方法具有较高的预测准确性。
技术领域
本发明涉及软件测试技术领域,特别涉及一种基于双通道卷积神经网络的重复缺陷报告检测方法。
背景技术
现代软件项目使用如Bugzilla[17]的缺陷跟踪系统来存储和管理缺陷报告。软件开发人员,软件测试人员和终端用户在遇到软件问题时,提交缺陷报告来描述这些问题。缺陷报告可以帮助指导软件维护和修复工作。随着软件系统的发展,每天都会有数百个缺陷报告被提交。当超过一个人提交缺陷报告来描述一个相同的bug时,重复缺陷报告就产生了。因为缺陷报告总是用自然语言描述,因此同一个bug也很可能以不同的形式描述。
因为缺陷报告数量庞大,手动检测重复缺陷报告是一个艰难的工作。此外,因为缺陷报告以自然语言描述,提供一个标准模版也是不实际的。因此,重复缺陷报告的自动检测是一件有意义的工作,它可以避免多次修复同一个bug。今年来,许多重复缺陷报告自动检测技术被提出来以解决这个问题。这些方法可以被粗略地分为信息检索和机器学习两个方向。
信息检索方法,它通常计算两个缺陷报告在文本上的相似度,即专注于根据文本描述来计算相似度。
例如Hiew使用VSM(Vector Space Model)建立了一个模型,它将一个报告计算为一个具有TF-IDF(Term Frequency-Inverse Document Frequency)术语加权方案的向量。基于VSM,Runeson等人首次运用自然语言处理技术来检测重复缺陷报告。Wang等人认为仅仅考虑自然语言信息不能很好地解决这个问题,因此他们还将执行信息作为一个特征来进行重复报告检测。然而,仅仅只有一小部分报告具有执行信息,所以这种方法具有很大的局限性。Sun等人提出了REP,这种方法不仅仅使用了summary和description,还使用了product,component,version等结构化信息。为了得到更高的文本相似度,他们扩展了BM25F,一种在信息检索领域有效的相似度计算方法。除了文本相似度和结构化相似度,Alipour等人还考虑了上下文信息对重复报告检测的影响。他们将LDA运用到这些特征上,取得了更好的结果。基于信息减速的方法在准确率和时间效率上都表现得很好,但是当一个问题以不同的术语描述时,结果就不令人满意了。
机器学习方法通过自学习的算法来提取报告的潜在特征,但是传统的机器学习方法无法很好地学习输入的深度特征。SVM是机器学习一个经典的方法。Jalbert等人用它建立了一个可以过滤重复报告的分类系统。同时,他们认为先前的方法没有充分利用缺陷报告中的各种特征,因此他们在模型中使用了表面特征,文本语义和图聚类。在Jalbert等人工作的基础上,Tian等人考虑了一些新的特征并建立了一个线性模型。从特征和不平衡数据的角度出发,他们提高了重复报告检测的准确率。Sun等人运用SVM建立了一个解释模型,他们也首次把缺陷报告分为重复和非重复两类。L2R是另外一个非常有用的机器学习方法。基于此,Zhou等人考虑了文本和统计特征,并对他们使用了随机梯度下降算法。这个方法比传统的信息检索方法,例如VSM和BM25F具有更好的效果。随着词嵌入技术[在自然语言处理领域的应用,越来越多的研究人员用它来检测重复报告。Budhiraja等人用词嵌入技术将缺陷报告转化为向量然后计算它们的相似度。实验结果表明,这种方法具有提高重复报告检测准确率的潜力。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910474540.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:研发质量的测评方法及装置
- 下一篇:一种实现精准监控代码覆盖率的方法