[发明专利]一种面向地球物理领域知识图谱的自动化构建方法及系统有效
| 申请号: | 201810883507.4 | 申请日: | 2018-08-06 |
| 公开(公告)号: | CN109145071B | 公开(公告)日: | 2021-08-27 |
| 发明(设计)人: | 董理君;姚宏;赵东阳;康晓军;李新川;郑坤 | 申请(专利权)人: | 中国地质大学(武汉) |
| 主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/36 |
| 代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 邹桂敏 |
| 地址: | 430000 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 地球物理 领域 知识 图谱 自动化 构建 方法 系统 | ||
1.一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,包括:
步骤1:建立包含地球物理领域的专业词汇的概念知识库;
步骤2:建立包含地球物理领域的非结构化文本的知识数据集;
步骤3:根据步骤2中建立的知识数据集,获取知识数据集中包含的所有的关系及这些关系对应的关系指示词,建立地球物理领域的关系指示词库;
步骤4:根据概念知识库对知识数据集进行NLP处理,包括分词、词性标注以及地球物理领域的实体识别;
步骤5:识别步骤4中识别出的任意两个实体之间是否存在关系,若存在关系,获取两个实体之间的关系;
步骤6:抽取分布在任意两个实体之间以及任意两个实体之后名词或动词作为候选关系指示词,该候选关系指示词能够体现步骤5中获取的两个实体之间的关系;
步骤7:根据步骤3中建立的关系指示词库对步骤6抽取的候选关系指示词进行去噪处理,得到高精度的候选关系指示词;
步骤8:将关系指示词库以及步骤7得到的高精度的候选关系指示词转换成向量,计算彼此的相似度,选取与高精度的候选关系指示词相似度最高的关系指示词对应的关系作为两个实体之间的关系,最终得到结构化的知识数据;
步骤9:将步骤8得到的结构化的知识数据导入图数据库中,用于自动搭建地球物理领域知识图谱。
2.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤2中采用Scrapy爬虫框架的方法建立知识数据集。
3.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤3中采用穷举法获取知识数据集中包含的所有的关系及这些关系对应的关系指示词。
4.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤5识别任意两个实体之间是否存在关系的方法是:当两个实体之间词距离不超过预设最大距离并且实体数目小于预设最小距离的时候,判定这两个实体之间存在关系。
5.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤8中利用Bag-of-words的方法将高精度的候选关系指示词转换成向量。
6.根据权利要求1所述的一种面向地球物理领域知识图谱的自动化构建方法,其特征在于,步骤8中最终得到结构化的知识数据是三元组数据。
7.一种面向地球物理领域知识图谱的自动化构建系统,其特征在于,包括:
词汇采集模块:用于建立包含地球物理领域的专业词汇的概念知识库;
文本采集模块:用于建立包含地球物理领域的非结构化文本的知识数据集;
关系采集模块:用于根据文本采集模块中建立的知识数据集,获取知识数据集中包含的所有的关系及这些关系对应的关系指示词,建立地球物理领域的关系指示词库;
实体识别模块:用于根据概念知识库对知识数据集进行NLP处理,包括分词、词性标注以及地球物理领域的实体识别;
关系识别模块:用于识别实体识别模块中识别出的任意两个实体之间是否存在关系,若存在关系,获取两个实体之间的关系;
指示词抽取模块:用于抽取分布在任意两个实体之间以及任意两个实体之后名词或动词作为候选关系指示词,该候选关系指示词能够体现关系识别模块中获取的两个实体之间的关系;
指示词去噪模块:用于根据关系采集模块中建立的关系指示词库对指示词抽取模块抽取的候选关系指示词进行去噪处理,得到高精度的候选关系指示词;
关系计算模块:用于将关系指示词库以及指示词去噪模块得到的高精度的候选关系指示词转换成向量,计算彼此的相似度,选取与高精度的候选关系指示词相似度最高的关系指示词对应的关系作为两个实体之间的关系,最终得到结构化的知识数据;
自动搭建模块:用于将关系计算模块得到的结构化的知识数据导入图数据库中,用于自动搭建地球物理领域知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810883507.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于图纸的设备网络建模方法
- 下一篇:一种草原生物量遥感监测分区方法及装置





