[发明专利]自动推断数据集的数据关系在审

专利信息
申请号: 202080017936.9 申请日: 2020-02-20
公开(公告)号: CN113508375A 公开(公告)日: 2021-10-15
发明(设计)人: S·古哈;G·K·索尔勒 申请(专利权)人: 微软技术许可有限责任公司
主分类号: G06F16/28 分类号: G06F16/28
代理公司: 北京市金杜律师事务所 11256 代理人: 马明月
地址: 美国华*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 自动 推断 数据 关系
【说明书】:

本文所描述的是用于推断多个数据集的数据关系的系统和方法。多个数据集的数据内容(以及可选的元数据)被扫描,以提取数据集中的每个数据集的特征。特征可以与数据的结构、数据集内的数据的简档和/或数据集的元数据有关。每个特征具有相关联的权重。基于已加权特征中的至少一些已加权特征(例如,基于数据集的sim‑散列或最小‑散列),数据集可以被聚类成簇。基于每个簇中的数据集的已加权特征,每个簇中的数据集之间的精确相似性度量被计算。具有高于阈值数量的精确相似性度量的数据集被推断为可能有关的。关于所推断的可能有关的数据集的信息被提供。

背景技术

诸如公司、政府等的大型组织可以存储越来越多的数据。异构的大数据系统可以具有数以亿计的数据集。许多数据集可能是有关的。例如,一个数据集可能是另一个数据集的准确副本,但是存储在不同的底层存储中;一个数据集可能是另一个数据集的近似副本;一个数据集可能是通过过滤、投影或聚合从另一个数据集导出的;两个或更多个数据集可能已经被连接等等。

发明内容

本文所描述的是一种用于推断多个数据集的数据关系的系统,包括:处理系统,包括处理器和其上存储有计算机可执行指令的存储器,当计算机可执行指令由处理器执行时,使处理系统:算法地扫描多个数据集的数据内容,以提取数据集中的每个数据集的特征,其中每个特征具有相关联的权重;基于已加权特征中的至少一些已加权特征将数据集聚类成簇;基于每个簇中的数据集的已加权特征,计算每个簇中的数据集之间的精确相似性度量;将具有高于阈值数量的精确相似性度量的数据集推断为可能有关的;并且提供关于所推断的可能有关的数据集的信息。

本发明内容被提供,以简化的形式介绍概念的选集,这些概念将在下文的具体实施方式中被进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。

附图说明

图1是图示了用于推断数据集的数据关系的系统的功能框图。

图2是推断多个数据集的数据关系的方法的流程图。

图3是推断多个数据集的数据关系的方法的流程图。

图4是示出了示例性计算系统的功能框图。

具体实施方式

现在参考附图,关于自动地推断数据集的数据关系的各种技术被描述,其中相同的附图标记始终用于指代相同的元素。在以下描述中,出于解释的目的,大量具体细节被阐述,以提供对一个或多个方面的透彻理解。然而,很明显,这些(多个)方面可以在没有这些具体细节的情况下被实践。在其他实例中,为了便于描述一个或多个方面,以框图的形式示出了公知的结构和设备。此外,应当理解,被描述为由特定系统组件执行的功能可以由多个组件执行。类似地,例如,组件可以被配置为执行被描述为由多个组件执行的功能。

本主题公开支持执行或被配置为执行关于自动地推断数据集的数据关系的各种动作的各种产品和过程。以下是一个或多个示例性系统和方法。

本主题公开的方面关于标识有关的数据集的技术问题。与解决该问题相关联的技术特征包括,算法地扫描多个数据集的数据内容以提取数据集中的每个数据集的特征,其中每个特征具有相关联的权重;基于已加权特征中的至少一些已加权特征将数据集聚类为簇;基于每个簇中的数据集的已加权特征,计算每个簇中的数据集之间的精确相似性度量;将具有高于阈值数量的精确相似性度量的数据集推断为可能有关的;并且提供关于所推断的可能有关的数据集的信息。因此,这些技术特征的方面展现了更高效的技术效果,以及有效地减少用于标识有关的数据集的(多个)计算资源和/或带宽。

此外,术语“或”旨在意味着包含性的“或”而不是排他性的“或”。即,除非另有说明或上下文明确,“X采用A或B”旨在指任何自然的包含性排列。即,“X采用A或B”满足以下任何情况:X采用A;X采用B;或X使用A和B两者。此外,除非上下文中另有说明或明确指向单数形式,否则本申请和所附权利要求中使用的冠词“一”和“一个”通常应当解释为“一个或多个”。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202080017936.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top