[发明专利]用于数字实体相关的技术有效
| 申请号: | 201680064958.4 | 申请日: | 2016-11-02 |
| 公开(公告)号: | CN108292310B | 公开(公告)日: | 2022-05-24 |
| 发明(设计)人: | M·雅库特;K·查克拉巴蒂;M·彼什纳 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F40/146 | 分类号: | G06F40/146;G06F40/279;G06F16/36;G06K9/62 |
| 代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;罗利娜 |
| 地址: | 美国华*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 数字 实体 相关 技术 | ||
使用数字实体相关来从组分图中生成复合知识图的技术。在一个方面,与主实体相关联的数字属性值可以被编码成基元,例如使用多分辨率编码方案来进行编码。可以基于从相关编码基元计算出的种子对来构建配对图,并且将配对图进一步扩展以包括种子对的主语和宾语以及连接到关系实体的对。针对每个候选对,计算相似度度量以确定是否存在匹配。相似度度量可以基于在与每个候选对直接或间接相关联的所有基元上对加权着陆概率求和。通过合并不仅来自候选对而且还来自候选对周围的对的基元匹配,可以整体实现有效实体匹配。
背景技术
知识图是一种表示与对象有关的、捕获这些对象之间的重要关系的信息的方式。知识图表用于数字信息检索和组织系统,以存储和组织可能的海量信息,诸如在互联网上发现的信息。为了将来自多个不同来源的知识组合成统一的可挖掘的知识图,重要的是要提供用于数字实体匹配的有效技术。实体匹配是一种确定数据集中的两个实体是否指代相同的现实世界对象的任务。
用于执行自动实体匹配的计算机的设计是具有挑战性的,因为涉及同一对象的两个数字实体仍然可以包含不同的属性集,原因例如在于跨不同知识图的属性选择差异、格式化不一致性、不准确性等。此外,需要有效的计算技术来处理包含在与不同知识域(包括例如历史、科学、娱乐等)相关联的大规模知识图中的绝对数量的数字实体,这样的知识域诸如是在互联网上发现的知识域。
已有的实体匹配技术包括将两个实体的直接属性彼此进行数字比较,而不必利用与这些实体到其他实体的连接相关联的其他属性。在一些情况下,这可能不会利用所有可用信息来获取准确匹配。此外,已有的实体匹配技术大部分是基于队列的,其中最高候选匹配被输入并且存储在队列中。这样的技术对硬件和存储器具有显著需求,并且可能无法很好地扩展到具有数百万乃至数十亿数字实体的大型知识图。
因此,期望提供用于数字实体匹配的技术,该技术不仅捕获知识图实体的局部特性而且捕获知识图实体的整体特性,同时以高效的方式实现所需要的计算。
发明内容
提供本发明内容部分是为了以简化的形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本发明内容部分无意确定所要求保护的主题的关键特征或基本特征,也无意用于限制所要求保护的主题的范围。
简而言之,本文中描述的主题的各个方面涉及用于使用数字实体相关来从组分图中生成复合知识图的技术。在一个方面,可以使用多分辨率编码方案将与知识图中的主实体相关联的属性值编码成基元。基于编码基元,可以通过比较实体对之间的编码基元以标识“种子对”来构建配对图。配对图可以被扩展为还包括与种子对相关的主语和宾语实体以及与图的“关系实体”相关的实体。
基于所构建的配对图,可以对于量化一对实体之间的相似度的每个候选对来计算相似度度量。在一个方面,可以通过在与候选对直接或间接相关联的所有基元上对加权着陆概率求和来计算相似度度量。所计算的相似度度量可以被传播到其他连接的候选对。可以基于所计算的相似度度量来对候选对执行匹配分辨,以确定实体匹配。
根据以下详细描述和附图,其他优点将是清楚的。
附图说明
图1示出了用于整合来自组分知识图的信息的示例性系统。
图2和3描绘了根据本公开的具有说明性格式的组分知识图。
图4示出了其中来自组分知识图的实体和关系已经被匹配和合并的复合知识图。
图5示出了根据本公开的用于构建配对图的方法的示例性实施例。
图6示出了种子块的示例性实施例。
图7示出了扩展块的示例性实施例。
图8示出了基于上文中描述的组分知识图的配对图的中间状态。
图9示出了在主语和宾语扩展之后的配对图的另一中间状态。
图10示出了配对图的又一中间状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680064958.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用深度学习模型识别内容项
- 下一篇:用于处理元数据的设备和方法





