[发明专利]构建企业特定知识图在审
申请号: | 201910033542.1 | 申请日: | 2019-01-14 |
公开(公告)号: | CN110297868A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | B·V·斯里尼瓦桑;R·查图维迪;T·戈亚尔;P·马赫什瓦里;A·V·蒙塞;A·桑彻蒂 | 申请(专利权)人: | 奥多比公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/36 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;彭梦晔 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 元组 非结构化数据 结构化数据 知识图 构建 映射 聚类 匹配 知识库 标识实体 丰富知识 关系顺序 匹配关系 分配 | ||
提供了一种用于根据包括结构化数据和非结构化数据的企业特定数据来构建企业特定知识库的框架。针对结构化数据中包括的多个元组中的每个,标识与已知关系相匹配的实体之间的关系。在可能的情况下,还针对非结构化数据中包括的元组来标识与已知关系相匹配的实体之间的关系。如果不能针对非结构化数据中的元组来标识实体之间的匹配关系,则将提取的关系顺序地聚类为相似的关系,并且将关系分配给聚类元组。根据结构化数据元组及其标识的关系、其中关系可以映射到已知关系的非结构化数据元组及其标识的关系、以及不能映射到已知关系的非结构化数据元组及其分配的关系来构建企业特定知识图。使用被确定为从知识图中丢失的任何信息来丰富知识图。
背景技术
组织和构建在线信息是一项重要且具有挑战性的任务,因为它极大地支持了信息检索和问答。鉴于其重要性,大规模公开可用知识库的数目近年来显著增加。示例包括但不限于GOOGLE知识图、YAGO知识库和DBpedia。最容易获取的大规模知识库建立在结构化数据(即,驻留在文档、文件或记录中的固定字段中的数据,诸如信息框、表格等)和非结构化数据(即,没有预定义数据模型或没有以预定义方式组织的数据)的组合之上。
虽然这些知识库的成功仅证明了它们的有用性,但是大多数现有的知识库是利用通用数据语料库建立的。因此,存在于这些知识库中的信息通常不能扩展到特定领域或企业的需要。例如,这些知识库通常被证明在为企业客户(诸如例如,)检索信息时几乎没有用,因为至少部分地,满足企业知识组织所需要的数据在通用源中不可用。此外,特定企业或领域内可用的数据类型在质量方面有所不同。
发明内容
本发明的实施例尤其涉及一种用于构建企业特定知识图的框架。接收包括结构化数据和非结构化数据的企业特定数据。结构化数据是驻留在文档、文件或记录中的固定字段中的数据,诸如信息框、表格等。文本字段/值对的形式的结构化数据自然地发生作为具有<主语><谓语><宾语>格式的多个元组或三元组。每个不同的文本字段表示实体(由<主语>元素和<宾语>元素引用)与对应的文本字段/值之间的边。通过与预定义的关系分类进行比较来标识结构化数据的实体之间的关系(由<谓语>元素引用)。
非结构化数据是不具有预定义数据模型或没有以预定义方式组织的数据。示例性非结构化数据是自由文本,诸如以句子格式等呈现的字母数字文本。在实施例中,从非结构化数据中提取<主语><谓语><宾语>格式的元组(或三元组)。实体(由<主语>元素和<宾语>元素引用)和关系(由<谓语>对象引用)被规范化以将元组标准化为预定义分类。实体规范化将实体映射到包括实体类别(例如,人、位置等)的预定义实体分类。在可能的情况下,关系规范化将关系映射到预定义关系分类。不能映射到预定义关系分类的关系经由顺序聚类来规范化以将相似的关系分组在一起,并且向聚类元组分配关系。
根据结构化数据元组及其相应的标识的关系、其关系可以映射到预定义关系分类的非结构化数据元组及其相应的标识的关系、以及不能映射到预定义关系分类的非结构化数据元组及其相应的分配的关系来构建企业特定知识图。使用基于概率方法而被确定为从企业特定知识图中丢失的任何信息来丰富企业特定知识图。
提供本“发明内容”是为了以简化的形式介绍一些概念,这些概念将在下面的“具体实施方式”中进一步描述。本“发明内容”不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
本公开的某些实施例或实现通过示例而非限制的方式在附图中示出,在附图中,相同的附图标记表示相似的元件,并且在附图中:
图1是可以采用本公开的一些实现的示例性计算系统的框图;
图2是示出可以在本公开的一些实现中使用的示例性企业特定数据的示意图;
图3是可以在本公开的一些实现中采用的示例性的基于聚类的规范化的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910033542.1/2.html,转载请声明来源钻瓜专利网。