[发明专利]自动推断数据集的数据关系在审
| 申请号: | 202080017936.9 | 申请日: | 2020-02-20 |
| 公开(公告)号: | CN113508375A | 公开(公告)日: | 2021-10-15 |
| 发明(设计)人: | S·古哈;G·K·索尔勒 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F16/28 | 分类号: | G06F16/28 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 自动 推断 数据 关系 | ||
本文所描述的是用于推断多个数据集的数据关系的系统和方法。多个数据集的数据内容(以及可选的元数据)被扫描,以提取数据集中的每个数据集的特征。特征可以与数据的结构、数据集内的数据的简档和/或数据集的元数据有关。每个特征具有相关联的权重。基于已加权特征中的至少一些已加权特征(例如,基于数据集的sim‑散列或最小‑散列),数据集可以被聚类成簇。基于每个簇中的数据集的已加权特征,每个簇中的数据集之间的精确相似性度量被计算。具有高于阈值数量的精确相似性度量的数据集被推断为可能有关的。关于所推断的可能有关的数据集的信息被提供。
背景技术
诸如公司、政府等的大型组织可以存储越来越多的数据。异构的大数据系统可以具有数以亿计的数据集。许多数据集可能是有关的。例如,一个数据集可能是另一个数据集的准确副本,但是存储在不同的底层存储中;一个数据集可能是另一个数据集的近似副本;一个数据集可能是通过过滤、投影或聚合从另一个数据集导出的;两个或更多个数据集可能已经被连接等等。
发明内容
本文所描述的是一种用于推断多个数据集的数据关系的系统,包括:处理系统,包括处理器和其上存储有计算机可执行指令的存储器,当计算机可执行指令由处理器执行时,使处理系统:算法地扫描多个数据集的数据内容,以提取数据集中的每个数据集的特征,其中每个特征具有相关联的权重;基于已加权特征中的至少一些已加权特征将数据集聚类成簇;基于每个簇中的数据集的已加权特征,计算每个簇中的数据集之间的精确相似性度量;将具有高于阈值数量的精确相似性度量的数据集推断为可能有关的;并且提供关于所推断的可能有关的数据集的信息。
本发明内容被提供,以简化的形式介绍概念的选集,这些概念将在下文的具体实施方式中被进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
附图说明
图1是图示了用于推断数据集的数据关系的系统的功能框图。
图2是推断多个数据集的数据关系的方法的流程图。
图3是推断多个数据集的数据关系的方法的流程图。
图4是示出了示例性计算系统的功能框图。
具体实施方式
现在参考附图,关于自动地推断数据集的数据关系的各种技术被描述,其中相同的附图标记始终用于指代相同的元素。在以下描述中,出于解释的目的,大量具体细节被阐述,以提供对一个或多个方面的透彻理解。然而,很明显,这些(多个)方面可以在没有这些具体细节的情况下被实践。在其他实例中,为了便于描述一个或多个方面,以框图的形式示出了公知的结构和设备。此外,应当理解,被描述为由特定系统组件执行的功能可以由多个组件执行。类似地,例如,组件可以被配置为执行被描述为由多个组件执行的功能。
本主题公开支持执行或被配置为执行关于自动地推断数据集的数据关系的各种动作的各种产品和过程。以下是一个或多个示例性系统和方法。
本主题公开的方面关于标识有关的数据集的技术问题。与解决该问题相关联的技术特征包括,算法地扫描多个数据集的数据内容以提取数据集中的每个数据集的特征,其中每个特征具有相关联的权重;基于已加权特征中的至少一些已加权特征将数据集聚类为簇;基于每个簇中的数据集的已加权特征,计算每个簇中的数据集之间的精确相似性度量;将具有高于阈值数量的精确相似性度量的数据集推断为可能有关的;并且提供关于所推断的可能有关的数据集的信息。因此,这些技术特征的方面展现了更高效的技术效果,以及有效地减少用于标识有关的数据集的(多个)计算资源和/或带宽。
此外,术语“或”旨在意味着包含性的“或”而不是排他性的“或”。即,除非另有说明或上下文明确,“X采用A或B”旨在指任何自然的包含性排列。即,“X采用A或B”满足以下任何情况:X采用A;X采用B;或X使用A和B两者。此外,除非上下文中另有说明或明确指向单数形式,否则本申请和所附权利要求中使用的冠词“一”和“一个”通常应当解释为“一个或多个”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080017936.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:复合轴承及其制作和使用方法
- 下一篇:压电制动装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





