[发明专利]面向软件缺陷的领域知识图谱自动化构建方法有效

专利信息
申请号: 201810047681.5 申请日: 2018-01-12
公开(公告)号: CN108121829B 公开(公告)日: 2022-05-24
发明(设计)人: 李斌;陈定山;孙小兵 申请(专利权)人: 扬州大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/279
代理公司: 南京中新达专利代理有限公司 32226 代理人: 孙鸥;朱杰
地址: 225009 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 软件 缺陷 领域 知识 图谱 自动化 构建 方法
【说明书】:

发明涉及面向软件缺陷的领域知识图谱自动化构建方法。本发明对bug缺陷关系三元组的抽取,再对bug缺陷领域的分类,即将bug缺陷库中bug相关信息进行收集并处理bug描述信息,通过自然语言处理得到描述句子中动词短语和名词短语,再根据bug信息相关的词与词之间依存关系,得出bug关系三元组,提取bug缺陷领域特征,采用半监督分类器进行训练、学习,使得分类器自动分类之前未被标记的三元组,将所有分类过的关系三元组存放在图形数据库中,构造出面向软件缺陷的领域知识图谱。本发明克服了在bug缺陷领域无有效处理方法的缺陷。本发明从自然语言处理角度,分析bug缺陷描述,帮助软件开发者和维护者更直观、快速、准确理解bug缺陷信息及其领域知识,提高效率,实现软件缺陷领域知识图谱,建立bug之间的关联关系。

技术领域

本发明属于软件维护领域,特别涉及面向软件缺陷的领域知识图谱自动化构建方法。

背景技术

软件开发人员和维护人员为了解决自己所遇到的一些bug问题通常会需要借助一些包含bug缺陷库的网站如Bugzilla对bug缺陷相关信息进行搜索。但是,这些网站大多数采用基于传统的关系数据库的搜索方法,搜索得到的结果大多虽然包含了bug缺陷大量的信息和属性,但是bug缺陷相互之间的联系不是特别的明显。另外,搜索者通过关键词进行检索时,网站采用逐一进行关键字匹配的方式就会使得搜索结果不准确,并且当搜索者输入的关键词较少或者关键词较多时,结果会产生两个极端(1)搜索结果不仅数量庞大且相关性较低,也没有按匹配后的相似度高低进行排序,这使得搜索者还需要花费大量时间进行信息的浏览和筛选;(2)返回结果数量极少甚至没有,且返回的信息也并不都是真正相关的。这些搜索结果使得搜索者很难找到自己真正需要的信息,耗时耗力。

在本发明之前,目前知识图谱研究已经取得了很多成果,形成了一些开放的知识图谱,尤其是领域知识图谱的构造得到了许多人的关注。但是针对软件缺陷的领域知识图谱构建的研究还处在起步阶段。另外,自然语言处理在其他领域知识图谱的构造用的很多,但很少用在bug缺陷领域。现有的bug缺陷库的数据来源质量高,对于这些bug缺陷信息通过自然语言处理,然后以知识图谱的形式建立他们之间的联系,可以提高软件开发者和维护人员解决bug缺陷的效率。

发明内容

本发明的目的就在于克服上述缺陷,研发出面向软件缺陷的领域知识图谱自动化构建方法。

本发明的技术方法是:

面向软件缺陷的领域知识图谱自动化构建方法,其特征在于如下步骤:

(1)对相关bug缺陷库中的bug缺陷信息进行抓取。抓取bug报告中的BugID、缺陷描述信息以及平台、产品、组件、和状态四种主要属性,并对抓取到的bug缺陷的描述信息进行自然语言处理,其中主要包含步骤:词语切分、词性标注;

(2)根据自然语言处理过后句子中词的词性标注,利用短语识别的正则表达式识别出句子中的名词短语NP、动词短语VP和带有开放从句补语的动词短语VVP:

(3)对bug缺陷描述信息进行依存句法分析,找出具体的“依赖”词和“主导”词之间的依存关系,提取出缺陷描述句子中的语法结构;

(4)根据词与词之间的依存关系,并结合步骤(2)中提取到的NP与VP,构造出bug缺陷描述信息的关系三元组(NP1,VP,NP2),一个缺陷描述语句通常不止一个关系三元组;

(5)对步骤(4)所提取到的bug缺陷描述信息的关系三元组进行补充,加入步骤(1)抓取到的bug缺陷信息中的BugID。最终生成关于bug缺陷的关系四元组(BugID,NP1,VP,NP2);

(6)利用步骤(1)中采集的bug缺陷的属性X,构成bug缺陷的属性三元组(BugID,property,X),作为对bug信息的进一步描述,为之后的软件缺陷领域知识图谱的构建做准备;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810047681.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top