[发明专利]一种关联数据知识图谱概览提取方法在审
申请号: | 201611122597.2 | 申请日: | 2016-12-08 |
公开(公告)号: | CN106599162A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 姜赢;杨静;高巾;朱玲萱 | 申请(专利权)人: | 北京师范大学珠海分校 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 519085 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关联 数据 知识 图谱 概览 提取 方法 | ||
技术领域
本发明涉及关联数据索引领域,更具体地,涉及一种关联数据知识图谱概览提取方法。
背景技术
关联数据(Linked Data)最早是在2007年5月,由Chris Bizer and Richard Cyganiak向W3C SWEO提交的一个项目申请Linked Open Data Project中提出来的。关联数据提出的目的是构建一张计算机能理解的语义数据网络,而不仅仅是人能读懂的文档网络,以便于在此之上构建更智能的应用。Linked Open Data Project的宗旨在于号召人们将现有数据发布成关联,并将不同数据源互联起来。关联数据主要通过RDF格式(Resource Description Framework)来表示。RDF将一个资源描述成一组三元组(主语,谓语,宾语)。SPARQL是W3C推荐标准,提供了对Web上或RDF存储(RDF Store)中的RDF图内容进行查询和处理的语言和协议。每个关联数据都提供SPARQL查询终端(SPARQL Endpoint),它是一种HTTP绑定协议,用于通过HTTP进行SPARQL查询,并返回相应数据。虽然关联数据可以通过SPARQL查询终端进行查询,但是对于某个特定领域的关联数据,用户在提交查询请求前必须事先知道此关联数据的内部数据结构(也就是关联数据知识图谱概览),包括有哪些:知识分类(Class)、知识关系(Object Property)、知识属性(Datatype Property)。在此基础之上,用户才能写出SPARQL语句进行查询。就如同查询数据库之前,首先要了解数据库的表结构Schema才行。因此,如何快速有效提取关联数据知识图谱概览是亟待解决的问题。
现有技术中的方案包括:用网络爬虫爬关联数据并进行索引,从而抽取关联数据知识图谱概览;用SPARQL查询并以知识分类为切入点进行关联数据知识图谱概览提取;前者的缺陷在于:需要通过网络爬虫获取、扫描关联数据的全部数据,需要做额外的数据索引,如果关联数据不让爬,则无法处理;后者的缺陷在于:没有明确定义定义rdf:type、rdfs:Class和owl:Class,是关联数据常有的现象,因此以知识分类为切入往往有关联数据知识图谱概览抽取部分遗漏情况出现。
发明内容
本发明提供一种提取速度快而稳定,提取结果的查全率高的关联数据知识图谱概览提取方法。
为了达到上述技术效果,本发明的技术方案如下:
一种关联数据知识图谱概览提取方法,包括以下步骤:
S1:查询关联数据所包含的知识关系集合P;
S2:过滤掉集合P中rdf,rdfs和owl为命名空间的与领域知识无关的知识关系,得到集合P’;
S3:构建集合P’中每一个知识关系p识谱图概览G1;
S4:查询描述知识分类之间直接关系的知识图谱三元组,并纳入到知识图谱概览G2中;
S5:将G1与G2合并到G,G就是最终的知识图谱概览。
进一步地,所述步骤S2的过程如下:
S21:对于知识关系集合P中的每一个知识关系p,提取它的命名空间n;
S22:如果命名空间n是rdf,rdfs或owl,则将p纳入到待过滤的知识关系集合
S23:将集合中的每个元素从P中删除,得到集合P’。
进一步地,所述步骤S3的过程如下:
以主体和客体为切入点,构建知识关系p的知识图谱概览G1:
S311:查询以知识关系p为谓语的三元组的主体s和客体o,分别查询主体s和客体o的知识分类集合C1和C2;
S312:如果C1和C2都不为空,则对于每一个(c1,c2)组合,其中c1∈C1,c2∈C2,构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。
另一种可选的方式中,所述步骤S3的过程如下:
以谓语为切入点,构建知识关系p的知识图谱概览G1:
S321:查询以知识关系p为主语、以rdfs:domain为谓语的三元组客体c1;
S322:查询以知识关系p为主语、以rdfs:range为谓语的三元组的客体c2;
S323:如果c1和c2都能查询到,则构建以c1为主体、p为谓语和c2为客体的知识图谱概览三元组,并纳入到知识图谱概览G1中。
进一步地,所述步骤S4的过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学珠海分校,未经北京师范大学珠海分校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611122597.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置