[发明专利]基于谓语组合的SPARQL查询优化方法、系统、存储介质及设备有效
申请号: | 202010049093.2 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111241127B | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 古宇文 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/2453 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510631 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 谓语 组合 sparql 查询 优化 方法 系统 存储 介质 设备 | ||
本发明公开了一种基于谓语组合的SPARQL查询优化方法、系统、存储介质及设备,方法包括:构建RDF数据索引;生成谓语组合,谓语组合中的每一个元素都包含一组标签,并且统计每个谓语组合的实体个数;获取用户提交的SPARQL查询,并且转换为SPARQL查询图;获取查询图中所有满足两个及以上三元组模式的公共顶点,并使用广度遍历算法把查询图转换成一棵树;然后使用基于成本的算法选择成本最低的树为初步查询树;重排初步查询树中每个非叶子节点到孩子节点的三元组模式的顺序,生成最终的查询顺序;然后使用两步剪枝进行SPARQL查询。本发明可以有效减少SPARQL查询过程中产生的大量冗余中间结果,提高查询效率。
技术领域
本发明属于计算机查询优化的技术领域,具体涉及一种基于谓语组合的SPARQL查询优化方法、系统、存储介质及设备。
背景技术
资源描述框架(Resource Description Framework,RDF)是一种流行的模型,已广泛用于表示网络资源信息。一个RDF数据集由一组三元组{主语,谓语,宾语}组成。因为RDF具有灵活的结构和可以使用纯文本形式或者图形形式来表达事物,所以许多组织和机构已经使用RDF来发布它们的数据。例如,许多大型的公共知识库YAGO和Bio2Rdf,已经包含数十亿个三元组。SPARQL是W3C推荐的一种用于RDF数据检索的标准查询语言。每个SPARQL查询都包含一组三元组模式,与RDF的三元组有所不同,三元组模式的主语、谓语和宾语可以是常量,也可以是变量。
目前许多系统使用基于关系型的方法来存储RDF数据,把SPARQL查询分为两个步骤:扫描与联接。通过把SPARQL查询拆分成一组三元组模式,接着对每个三元组模式分别地去扫描RDF数据以生成绑定值表。然后把绑定值进行联接操作,去掉冗余的中间结果,生成最终的查询结果。随着RDF数据集的快速增大,扫描结果也随之增大,就会在联接操作的时候产生更多的冗余中间结果。因此,如何减少SPARQL查询的冗余中间结果是当前的主要挑战。
为了减少冗余中间结果,当前的研究主要通过以下方法来解决:优化SPARQL三元组模式的顺序;使用基于图探索的方法来减少基于联接操作所造成的大量冗余中间结果。对于前者,有些方法通过使用基于成本的算法来重排三元组模式的顺序。在基于成本的算法中,主要考虑的是两个三元组模式之间的关系,而没有考虑多个三元组模式之间的关系,导致选择的三元组模式的顺序可能不是最优的,从而造成大量冗余中间结果。对于后者,使用基于图探索的方法已经被证实可以有效的减少冗余中间结果,但是许多方法把SPARQL查询拆分成多个星型子查询,同时独立的探索每个星型子查询。但是在最后使用集中统一联接的方法可能会成为系统的瓶颈。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于谓语组合的SPARQL查询优化方法、系统、存储介质及设备,解决SPARQL查询过程中产生的大量冗余中间结果。
本发明的第一个目的在于,提供一种基于谓语组合的SPARQL查询优化方法。
本发明的第二个目的在于,提供一种基于谓语组合的SPARQL查询优化系统。
本发明的第三个目的在于,提供一种存储介质。
本发明的第四个目的在于,提供一种计算机设备。
本发明的第一个目的可以通过采取如下技术方案达到:
构建RDF数据索引,根据三元组的主语s、谓语p、宾语o,分别生成spo、ops、ps和po四种索引,所述三元组中的主语和宾语称为实体;
生成谓语组合,谓语组合中的每一个元素都包含一组标签,并且统计每个谓语组合的实体个数;
获取用户提交的SPARQL查询,并且把SPARQL查询转换为SPARQL查询图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010049093.2/2.html,转载请声明来源钻瓜专利网。