[发明专利]一种高效的分布式的RDF数据存储方法有效
申请号: | 201610064516.1 | 申请日: | 2016-01-29 |
公开(公告)号: | CN105608228B | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 吴志坚;黎建辉;周园春;侯艳飞;韩岳岐 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F16/51 | 分类号: | G06F16/51 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 司立彬 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高效 分布式 rdf 数据 存储 方法 | ||
本发明公开了一种高效的分布式的RDF数据存储方法。本方法为:1)用户为待上传的每一三元组选取一命名图或设定一新的命名图;并根据业务需求为该三元组设定一有效谓词及其三元组;2)数据控制系统对用户上传的RDF数据中的每条三元组进行解析,提取该三元组的谓词及该三元组的命名图的有效谓词;然后根据该有效谓词,将该三元组拆分成具有相同唯一标识的两个三元组:同一主语的完整谓词的三元组和同一主语的有效谓词的三元组;有效谓词为完整谓词中一部分谓词;3)数据控制系统将得到的同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据分别存储到不同的数据库集群。本发明得到提升了数据的高可用性。
技术领域
本发明涉及RDF数据存储技术领域,特别是高效的分布式的RDF数据存储方法,属于计算机软件领域。
背景技术
随着互联网技术的高速发展,使得互联网的应用范围越来越广泛,并且形成一个庞大的知识网络库,但同时也带来很多挑战,为了把不同形式的知识网络库连接起来,让计算机能够理解数据与数据之间的联系,提出了语义网的概念。语义网的目标是让网络上的信息资源能够被机器理解,从而实现网络信息资源的自动化处理,以适应网络信息资源的快速增长。
语义网定义一种资源描述框架RDF来描述网络上的信息资源。RDF是一个网络资源对象和其间关系的数据模型,提供一个通用的数据模型来支持对网络资源的描述,RDF使用三元组(主语、谓语和宾语)来描述网络上的各种资源和他们之间的关系。从图的角度分析,该模型是由节点和节点之间的边构成,节点表示主语和宾语,边表示谓语,如此可以用节点表示资源,边表示资源的属性。
目前对RDF数据存储普遍采用单机RDF数据库管理系统,比如:GraphDB、stardog和allegrograph等。这种RDF存储方式可以管理大量的三元组数据,但是随着互联网信息资源的快速增长,单机的存储能力有限,已不能满足目前海量三元组数据存储的需求。针对海量三元组数据的存储有学者提出了多种方案,但都处在研究阶段。比如使用Hadoop或Hbase分布式集群存储三元组数据,由于Hadoop或Hbase都天然具有海量数据的存储管理能力,并采用mapreduce模拟实现数据查询;但是由于这种存储方式使得同一主语的三元组数据存储具有分散性,即同一主语的三元组可能存储在多台机器;加上RDF数据关联关系的复杂性,每个三元组之间都有可能存在关联关系,mapreduce模拟实现数据查询方案进行数据查询时,需要进行大量的数据关联筛选,目前的存储方案不能实现对数据高速的查询,查询性能比较低,特别是数据量很大的情况下,一条简单的查询可能就需要执行十几秒,不能满足实际的业务查询需求。
发明内容
针对上面提到的RDF数据存储中遇到的问题,本发明提出了一种高效的分布式的RDF数据存储方法,解决现有RDF数据存储方式中数据存储量有限、三元组数据分散的问题。
为解决上述问题,本发明提出了一种高效的分布式的RDF数据存储方法,该方法主要包括以下实现步骤:
1)数据解析器对用户上传的RDF数据进行解析,把每条三元组数据解析成统一格式的三元组对象;对解析后的数据进行处理,解析并提取三元组中的谓词,提取命名图的有效谓词,有效谓词通过用户的业务需求而定义,用户根据具体的业务需求确定目前用到的谓词三元组,即构成有效谓词的三元组。根据该命名图的有效谓词,把同一主语的三元组数据拆分成两部分,即同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据;同一主语的完整谓词的三元组数据即是同一主语的完整的三元组数据,同一主语的有效谓词的三元组数据即是同一主语的部分谓词的三元组数据,因此同一主语的有效谓词的三元组数据是同一主语的完整谓词的三元组数据子集。根据该命名图的有效谓词,把同一主语的三元组数据拆分成两部分,即同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据;并生成唯一ID,唯一标示该主语的三元组,每一主语的三元组都会生成该唯一ID,用于唯一标示该主语的三元组,同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据共用该唯一ID。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610064516.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于确定引导线的布置位置的方法和装置
- 下一篇:一种大数据并发存储系统及方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置