[发明专利]一种从软件项目数据中提取知识图谱并问答的方法与系统有效
| 申请号: | 201810597005.5 | 申请日: | 2018-06-11 |
| 公开(公告)号: | CN108959433B | 公开(公告)日: | 2022-05-03 |
| 发明(设计)人: | 谢冰;林泽琦;邹艳珍;赵俊峰 | 申请(专利权)人: | 北京大学 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06F16/33;G06F16/31;G06F16/901;G06F8/75 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100871 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 软件 项目 数据 提取 知识 图谱 问答 方法 系统 | ||
本发明公开了一种从软件项目数据中提取知识图谱并问答的方法与系统。本方法为:对于软件项目数据库中每种类型的软件项目数据,从该类型的软件项目数据中提取出实体以及实体之间的关联关系,并存储到一对应的图数据库中;基于软件数据的可追踪性关联技术对各所述图数据库中的数据进行关联处理,得到不同类型软件项目数据的实体之间的关联关系;根据不同类型软件项目数据的实体之间的关联关系,在各图数据库中加入相应的边,对不同来源的实体进行连接,生成软件项目数据的知识图谱;对于输入的自然语言查询语句,从知识图谱中查询得到一匹配的连通子图作为答案。本发明解决了软件项目数据关联缺失、信息隔离现象严重、难以联立查询与分析的问题。
技术领域
本发明涉及一种从软件项目数据中提取知识图谱并问答的方法与系统,属于计算机软件技术领域。
背景技术
复用已有的大型软件项目是提高软件企业的软件生产率和软件质量的一种重要途径。软件复用成功的前提是复用者能够快速、正确地学习与理解软件项目中海量的相关知识,如领域概念、系统架构、接口设计、变更历史等等。这些知识蕴含在软件项目的全生命周期中产生的多源异构的数据中,例如:源代码、需求文档、设计文档、版本库、缺陷库、邮件记录、论坛讨论、技术博客等等。
目前,大量软件工程领域的研究者致力于从这些软件项目数据中挖掘出机器可理解的知识,进而能够基于这些知识为复用者提供智能化的推荐或问答服务。然而,在实践中,已有的软件项目数据并不利于研究。一方面,这些数据多源异构,彼此间广泛的关联关系并未被机器识别,存在严重的信息隔离问题;另一方面,这些数据中存在大量无结构的自然语言文本内容,不利于机器的分析与处理。因此,有必要发明一种从多源异构的软件项目数据中自动识别实体,并建立实体间广泛的关联关系,形成知识图谱,并为其提供自动问答支持的方法与系统。
发明内容
针对目前软件项目数据多源异构、缺乏关联、难以分析挖掘的问题,本发明的目的在于提供一种从软件项目数据中提取知识图谱并问答的方法与系统,通过本发明提供的方法和系统可以有效地从一个软件项目相关的多源异构数据中自动提取实体,识别出实体之间广泛的关联关系,形成知识图谱,并为其提供自动问答支持。
本发明的方法如图1所示,包括如下步骤:
1.一种面向多源异构软件项目数据的实体提取模块
该模块用于对软件项目数据库中各种不同类型的软件项目数据进行解析。针对每种类型的软件项目数据,该模块实现了一个数据解析插件,能够自动从这类数据中提取出实体,识别出这些实体之间的关联关系,并存储进neo4j图数据库中。具体为:
对于java源代码数据,使用抽象语法树解析工具Eclipse JDT ASTParser进行解析,抽取出程序结构依赖图,存储进neo4j图数据库中。程序结构依赖图中包含3种类型的实体(类实体、方法实体、域实体)以及11种类型的关联关系(继承、实现、声明方法、声明域、声明变量、域类型、函数调用、域访问、参数类型、返回类型、抛出异常)。
对于git版本库数据,使用git数据解析工具jgit进行解析,抽取出版本库中的实体及其间的关联关系,存储进neo4j图数据库中。其中包含2种类型的实体(提交记录实体、开发者实体)以及3种类型的关联关系(父对象、创建者、提交者)。
对于mbox邮件库数据,使用MIME数据解析工具mime4j进行解析,抽取出邮件库中的实体及其间的关联关系,存储进neo4j图数据库中。其中包含2种类型的实体(邮件实体、邮件地址实体)以及4种类型的关联关系(发送、接受、转发、回复)。
对于jira或bugzilla缺陷库数据,利用缺陷库提供的rest api接口导出json数据,并从中解析抽取出相应的实体及其间的关联关系,存储进neo4j图数据库中。其中包含4种类型的实体(缺陷报告实体、缺陷报告评论实体、缺陷库用户实体、修复记录实体)以及7种关联关系(包含评论、缺陷提交者、缺陷评论者、缺陷修复者、缺陷修复、重复缺陷、相关缺陷)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810597005.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于BDS的山体滑坡三维重建的几何方法
- 下一篇:一种防雾剂及其制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





