[发明专利]用于分布式知识库的基于本体的数据存储在审
| 申请号: | 202080070094.3 | 申请日: | 2020-09-30 |
| 公开(公告)号: | CN114586012A | 公开(公告)日: | 2022-06-03 |
| 发明(设计)人: | A.夸尔马;F.奥兹坎;R.阿罗泰比;雷川 | 申请(专利权)人: | 国际商业机器公司 |
| 主分类号: | G06F9/50 | 分类号: | G06F9/50 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 陈金林 |
| 地址: | 美国纽*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 分布式 知识库 基于 本体 数据 存储 | ||
提供了用于分布式数据放置的技术。由数据协调器确定对应于域的查询工作负载信息,并且将查询工作负载信息建模为超图,其中超图包括顶点的集合和超边的集合,其中顶点的集合中的每个顶点对应于与域相关联的本体中的概念。基于超图并进一步基于多个数据节点中的每一个的预定义的能力,生成概念和多个数据节点之间的映射。基于所生成的映射建立分布式知识库。
技术领域
本公开涉及知识库,并且更具体地说,涉及使用本体在分布式知识库中进行有效的数据放置。
背景技术
越来越多的企业正在利用知识库(KB)来增强其分析并改善其系统的决策做出、效率和有效性。通常,在企业的域内,KB相对专用。例如,金融机构依赖于具有重要金融知识的KB,诸如与金融市场的政府规章有关的数据。相反,健康护理企业可以维护具有从医学文献收集的相当大量的数据的KB。存在对管理这些KB的深度域专门化、有效系统和有效技术的实质需要。不知道提供域模式的实体中心视图的域本体的现有系统,不能有效地管理和路由对KB的查询。
另外,KB可以分布在具有不同能力和成本的多个数据站点上,以便改善操作。诸如联合数据库的现有架构依赖于集中式中介器来聚合来自每个这样的源的数据。这是低效的并且缩放性差。另外,现有系统不理解每个数据源的底层本体和能力,因此不能有效地路由查询。这降低了这种系统的效率,需要大量的计算资源来响应典型的查询。
发明内容
根据本发明的一个方面,提供了一种方法,包括:由数据协调器确定对应于域的查询工作负载信息。该方法还包括将查询工作负载信息建模为超图,其中超图包括顶点的集合和超边的集合,其中顶点的集合中的每个顶点对应于与域相关联的本体中的概念。另外,该方法包括基于基于超图并进一步基于多个数据节点中的每一个的预定义的能力,生成概念和多个数据节点之间的映射,并且基于所生成的映射建立分布式知识库。有利地,该方法使得数据协调器能够基于现有工作负载和每个数据节点的能力在分布式环境中有效地放置和存储数据。这减少了存储数据所需的计算开销,并且通过提供有效的数据映射进一步改善了系统响应性。
根据本公开的另一实施例,确定查询工作负载信息包括接收先前本体查询的集合。根据该实施例的方法包括生成由先前本体查询的集合中的第一查询访问的概念的第一集合,以及生成由第一查询执行的操作的第二集合。通过以下步骤生成第一概括查询:从先前本体查询的集合标识具有对应的匹配第一集合的查询组并且基于所标识的查询组中的每个查询的对应的第二集合,确定操作的聚合集合。然后将第一概括的查询与操作的聚合集合和在对应的匹配第一集合中反映的概念相关联。在这样的实施例中,数据协调器通过有效地概括先前查询以确定数据的良好存储计划来改进现有系统,以便满足预期的需要。这再次提高了效率并减少了运行时的计算浪费。
根据本公开的又一实施例,将查询工作负载信息建模为超图包括为本体中的每个概念创建顶点并且为第一概括的查询创建第一超边,其中第一超边连接超图中的顶点的第一集合,其中顶点的第一集合对应于在匹配第一集合中反映的概念。在一个这样的实施例中,该方法还包括用操作的聚合集合标记第一超边。有利地,这样的实施例使得数据协调器能够有效地以图形式表示工作负载,这允许协调器更好且更有效地评估数据以驱动改进的放置决策。这显著地提高了运行时间性能。
根据本公开的又一实施方式,生成映射包括为包括在超图中的第一操作创建第一集群。该实施例然后包括标识由超图中的第一超边连接的概念的第一集合,以及标识由第一超边指示的操作的第一集合。该方法包括在确定操作的第一集合包括第一操作时,将概念的第一集合分配给第一集群。这种实施例的一个优点在于,其使得能够高效地评估超图,并且导致在运行时需要最小移动的高度可靠的数据放置。
根据本公开的另一实施例,生成映射还包括通过以下步骤将概念的第一集合映射到一个或多个数据节点:标识能够执行第一操作的数据节点的集合,以及将概念的第一集合中的每个概念映射到所标识的数据节点的集合中的每个数据节点。有利地,这使得系统能够基于节点的能力生成数据映射,同时考虑先前工作负载。这提高了系统将被充分地定位以便以最小的等待时间和资源消耗来响应将来的查询的可能性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080070094.3/2.html,转载请声明来源钻瓜专利网。





