[发明专利]基于BERT预训练模型的链接生成方法在审
申请号: | 202210402091.6 | 申请日: | 2022-04-18 |
公开(公告)号: | CN114816497A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 宫丽娜;蓝金鹏;张静宣;魏明强 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F8/70 | 分类号: | G06F8/70;G06F16/35;G06F16/906;G06N3/04;G06N3/08 |
代理公司: | 青岛锦佳专利代理事务所(普通合伙) 37283 | 代理人: | 朱玉建 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 训练 模型 链接 生成 方法 | ||
本发明属于软件缺陷检测技术领域,公开了一种基于BERT预训练模型的链接生成方法。该链接生成方法利用当下表现出色的BERT模型以实现缺陷报告和代码提交之间的自动链接,采用一系列有效的预处理技术和方法完成数据收集和处理工作,选取经过预训练的CodeBERT模型进行微调,更好的提取缺陷报告和代码提交中的语义信息,使得模型在熟练数据较少的情况下也能有较好的效果,提高链接生成的准确率;最后通过卷积神经网络完成二分类工作,确定缺陷报告与代码提交之间的链接关系。本发明通过使用预训练模型,以解决神经网络和机器学习训练数据不足的问题,使得自动链接工作能够有效地应用于中小型软件项目中,同时加快了训练速度,提高了链接跟踪的效率和准确率。
技术领域
本发明属于软件缺陷检测技术领域,涉及一种基于BERT预训练模型的链接生成方法。
背景技术
在软件开发过程中,通常使用缺陷报告来跟踪软件开发中的各种问题及进行相关讨论,随后开发者针对缺陷报告中所报告的问题对现有软件进行修改,并及时进行代码提交以保证软件质量和软件正常使用。在软件开发过程中通过缺陷报告和代码提交建立用户和开发人员之间的交流,而缺陷报告和代码提交之间的链接可以加强软件的跟踪性,使得软件开发中各个组件紧密连接,从而维护好产品在开发过程中的可查询性,方便代码检查和功能测试,在软件工程中缺陷预测、bug定位等任务中具有重要价值。
缺陷报告和代码提交之间的链接通常需要开发人员通过在代码提交日志中手动添加包含issue标识符(如Apache大型开源项目)等方式进行链接,然而,在实践中由于链接工作是非强制性的,因而,在软件开发过程中丢失了大量的链接。
手工恢复缺陷报告和代码提交之间的链接是一项工作量巨大且容易出错的困难工作,因而研究人员提出了许多自动化链接技术,包括基于启发式方法的技术和基于深度学习的技术。
Sun等人提出一种基于文件相关性的方法FRLink方法来恢复缺陷报告和代码提交之间的链接。该方法利用代码提交中包括代码更改细节的非源文档文件,基于缺陷报告和代码提交及相关文档的文本相似性进行分类,从缺陷报告和代码提交中提取代码特征和文本特征,使用提取的特征和信息检索技术来确定两者之间的相似性,基于训练数据集学习阈值,最后根据相似度和阈值之间的大小关系以确定是否进行链接,然而,该方法主要依赖于文本相似性特征,缺乏捕获缺陷报告和代码提交之间语义关联的能力,同时简单将代码特征与文本特征以同等权重对待,忽略了两者之间的重要性关系,同时在相关文件较少以及代码术语较少的缺陷报告和代码提交之间难以建立关联。
Ruan等人提出一种基于深度学习的方法DeepLink来恢复缺陷报告和代码提交之间的链接。该方法加强了对缺陷报告和代码提交的语义理解能力,使用词嵌入技术和循环神经网络开发了一个神经网络架构来学习缺陷报告和代码提交中自然语言和编程语言的语义表示以及两者之间的语义关联,但是该方法存在训练数据不足以及神经网络速度慢等技术问题,对数据集的质量和规模有较高的要求,难以在训练数据量小的项目以及中小型项目上使用。
目前的自动化链接技术为恢复缺陷报告和代码提交之间的链接方面提供了良好的研究基础,但当前对于链接的跟踪方法仍存在进步空间,先前研究存在较多的问题,主要体现在:
基于启发式的方法主要根据元数据匹配等信息制定启发式规则,在链接生成过程中准确度较低;基于深度学习的方法主要依赖于文本相似性信息,缺乏对代码语义信息的理解能力。此外,这些技术存在训练样本不足(尤其是正确链接样本数量不足)、深度神经网络速度太慢等问题,在链接跟踪实践过程中的使用条件苛刻,在语义理解能力上仍有可提升空间。
发明内容
本发明的目的在于提出一种基于BERT预训练模型的链接生成方法,通过提高对缺陷报告和代码提交的语义理解能力以提高链接的准确率,同时模型能在训练数据较少的情况下也有很好的效果并且提高运行效率,保证了软件质量和软件的可追溯性,降低了软件维护成本。
本发明为了实现上述目的,采用如下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210402091.6/2.html,转载请声明来源钻瓜专利网。