[发明专利]基于Storm的RDF流式数据关键词实时搜索方法有效
| 申请号: | 201710057433.4 | 申请日: | 2017-01-23 |
| 公开(公告)号: | CN106874426B | 公开(公告)日: | 2019-12-31 |
| 发明(设计)人: | 汪璟玢;陈双 | 申请(专利权)人: | 福州大学 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/2453;G06F16/2458 |
| 代理公司: | 35100 福州元创专利商标代理有限公司 | 代理人: | 蔡学俊 |
| 地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 storm rdf 数据 关键词 实时 搜索 方法 | ||
本发明涉及一种基于Storm的RDF流式数据关键词实时搜索方法,其特征在于:包括Storm实时处理、Redis分布式存储和Storm实时查询;Storm实时处理的具体内容为:Storm的Spout组件接收并处理RDF本体和实例数据文件流,将处理后的RDF本体和实例数据文件流分布式存储至Redis哈希表中;所述Storm实时查询的具体内容为:客户端发送实时查询请求,服务端接收客户端的查询请求后,先检查查询缓存中是否已存在该查询请求的查询结果,若存在,则复用缓存历史查询结果,执行增量更新查询算法,返回查询结果;若不存在,则服务端对查询请求进行实时计算,并返回查询结果。本发明支持对连续RDF数据流的进行实时查询,满足用户对RDF数据流实时查询的应用需求。
技术领域
本发明涉及海量RDF数据检索技术领域,尤其涉及一种基于Storm的RDF流式数据关键词实时搜索方法。
背景技术
目前,国内外有关RDF语义网数据的关键词搜索问题研究大都是针对静态数据集的搜索,根据搜索处理方式的不同,可以分为两类:关键词构造结构化查询方法和关键词直接构造查询结果方法。第一类,关键词构造结构化查询方法通常包括关键词映射、构建查询语句和对查询排序。将关键词翻译成联合查询,再得到SPARQL查询语句,通过索引这些关键词可能分别对应到数据图中的顶点或边,在图上定位包含这些顶点和边的子图后,将子图映射为联合查询。Ladwing G等从RDF数据中抽取结构信息,构造查询搜索图生成结构化查询,然后查询得到结果。El-Roby等实现了一个Sapphire查询系统,使用预测用户模型,根据用户的输入关键词间相似性帮助用户构造结果化查询SPARQL,使用户通过输入简单关键词就可以进行准确的SPARQL查询。先通过在元组模式图上定位包含用户查询关键词的子图,让用户在这些候选子图中选择最合适的子图,映射成结构化查询,进行查询操作并返回结果。但该策略依赖于用户的反馈和RDF模式信息的完整性。
第二类,关键词直接构造查询结果方法大都是在图数据上直接匹配包含所有查询关键词的子图,利用评分函数对候选答案排序,返回top-k查询结果。李慧颖等人将RDF数据建模成顶点带标签的实体三元组关联图,构建结构索引,利用斯坦纳树近似算法实现了快速查询响应。Le W等设计一个有效的图摘要提取算法,从RDF数据图中根据类型提取RDF数据结构的摘要信息,利用图摘要剪枝从而加速搜索效率。Elbassuoni采用基于IR和统计概率的排序模型,对检索到的包含查询关键词的子图进行评分排序,返回评分值高匹配的结果。De Virgilio等提出一种新颖的完全分布式的RDF关键字搜索方法,以图路径的方式分布式存储海量RDF数据,利用MapReduce对大规模图数据进行分布式搜索。
以上RDF关键词搜索方法都是针对静态RDF数据集,无法对动态的RDF流式进行实时查询。互联网上产生各种各样的流式数据,由于数据的异构性,RDF被广泛用于在数据流中提供统一的元数据表示,RDF动态数据流在语义网络社区中引起了相当大的兴趣。D.F.Barbieri等提出了C-SPARQL和D.LeP等提出了CQELS,类似SPARQL的查询语言和操作语义,通过在数据流管理系统中定义窗口化技术来实现连续查询。Zhang Y等人提出一个流式RDF/SPARQL查询基准SRBech,不仅能够处理简单的图模式查询,也能处理复杂的推理查询。Jean Paul等人提出了一个生产者和消费者的角色模型实现RDF流式处理系统,角色间通过异步事件消息进行通信,实现了RDF流式SPARQL的查询。Le-Phuoc D提出了一种新颖的操作感知数据结构,建立有效的评估算法,实现RDF流式数据查询,并验证该方法有效的减少执行查询的时延。但他们都是处理结构化查询SPARQL且大都被设计为单机运行的,不能被扩展处理大规模RDF数据流的分布式查询。针对单机系统可扩展性的限制,人们将目光投向分布式流式处理框架,如S4和Storm。D.L.Phuoc等人提出了是第一个可扩展的RDF数据流分布式处理系统CQELS-Cloud,整体架构由一个执行协调器和多个操作容器组成,执行协调器负责分配要处理的任务,每个操作容器负责执行单个操作,如联合、聚合等。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710057433.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





