[发明专利]用于执行调和处理的方法、控制器、程序及数据存储系统有效
申请号: | 201310231665.9 | 申请日: | 2013-06-09 |
公开(公告)号: | CN103488673A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 胡波;洛雷达纳·拉埃拉 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;杨华 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 执行 调和 处理 方法 控制器 程序 数据 存储系统 | ||
技术领域
本发明涉及数据存储和相关联的处理的领域。具体地,本发明的实施方式涉及数据集的图形表示中的资源的调和处理的执行。该调和处理意在对图中的在语义上对应的资源之间的异构性进行调和。
背景技术
大量的可用图数据为不仅能够显示统计趋势而且能够揭示隐含模式并提炼数据中的知识的自动化或半自动化分析创造了潜能。形式语义在自动化的计算密集型任务中发挥着重要作用。尽管关于如何最好地捕获语义存在长期的战役,但是仍广泛认为图形表示或类图形表示是模拟人类如何感知世界(如具有实体以及实体之间的关系的本体)的最佳工具。
图数据库因此提供了如下优点:自然地表示可以存储大量结构化和非结构化数据的基于“语义网络”的知识表示。
图数据库是如下一种数据表示:其采用节点和边(或弧)来表示实体以及采用节点之间的弧来表示这些实体之间的关系。图数据库被应用于各种不同的应用中,该各种不同的应用总体上可以被分组成两个主要种类。第一类包括具有概念描述的大集合的、复杂的基于知识的系统(被称为“基于知识的应用”),例如智能决策支持和自学习。第二类包括涉及对事务性数据执行图分析的应用(被称为“事务性数据应用”),例如社交数据和商业智能。
格式化图数据库的核心处是资源描述框架,RDF,一种提供数据的语义标记的简单的基于图的数据建模语言。使用RDF,数据孤岛可以开始被拼接在一起并且将当前群岛数据景观转换为被连接的数据图,基于该被连接的数据图,可以构造复杂的数据分析和商业智能应用。
数据集通常可能是高度异构性的且分布式的。这样的数据的分散性质导致通常众多数据资源使用不同的参考符号来表示同一真实世界对象的问题。朝向有效利用可用的图数据的必要且重要的步骤是:标识并调和多种参考符号,以用于语义一致性。下文中,术语“调和(reconciliation)”用于指示通过标识和定义在语义上彼此对应的资源之间的等价性链接来调和资源(如数据图中的节点,例如,如RDF三元组(triple)的主语或宾语)之间的异构性的过程。从而,“调和处理”是指为了实现调和而由处理器对算法和指令的执行。
数据调和的重要性是明显的。数据调和确保当异构的数据集被链接(导致数据的语义多样化)时的数据完整性。否则不能执行有意义的分析。同时,等价性允许应用能够彼此对准。应用之间的通信因而可以被自动化并委托给计算机。
发明内容
本发明的实施方式提供了一种用于执行在数据图中被表示为节点的资源的调和的方法,该方法包括:选择所述图的节点的、待针对其执行与特定节点的调和处理的初始子集;执行所述特定节点与节点的所述初始子集中的每个节点之间的调和处理;延迟所述特定节点与所述图的节点的、待针对其执行与所述特定节点的调和的另外子集之间的调和处理。
可以在创建图期间或创建图之后创建等价性链接。在现有的调和处理中,针对整个数据集来(在单个例程中)同时执行找寻等价性链接的处理。如果考虑大量数据(数十亿节点的规模),则这可能是效率低下的重要来源。调和是一种复杂、冗长以及耗时的过程,并且通常是昂贵的。调和算法通常执行相当耗时的计算密集型操作。这对真实复杂任务的实用性提出了挑战,并且对最佳地迎合数据需求以获得最大性能和可缩放性的计算结构的有效利用提出了挑战。可用的数据量正在逐渐增长,并且因此常常无法通过现有的方法和工具来管理待调和的可用数据量。为了能够调和大量数据,期望高度重视可缩放性问题。
图中的数据可以被称为“被连接的数据”、“图数据”、“被链接的数据”或“相关数据”以及所有意在将图的概念结构反映为由弧互连的多个节点的其它短语。在某些实施中,图中的数据可以是如在其被设置为“开放式的被链接的数据(LOD)”倡议的一部分的数据中那样的“被链接的数据”,但是本发明的实施方式并不限于这样的实施,而且术语“被链接的数据”可以被更广义地解释,而不是仅被解释为被设置作为LOD倡议的一部分的数据。
通过提供一种执行调和处理但调和处理不是必须全部在单个例程中执行的方法,能够实现可缩放性。也就是说,一些调和处理可以基于向图中添加新节点或添加具有作为主语的节点的新数据项(例如三元组)来执行,但是不必须执行与图中的节点的整个集合的调和处理,而是仅针对子集来执行。初始子集的大小不是必需随着图的大小增加而增加,因此初始调和处理所需要的处理不随着图的增长而变得不可行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310231665.9/2.html,转载请声明来源钻瓜专利网。