[发明专利]构建企业特定知识图在审
申请号: | 201910033542.1 | 申请日: | 2019-01-14 |
公开(公告)号: | CN110297868A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | B·V·斯里尼瓦桑;R·查图维迪;T·戈亚尔;P·马赫什瓦里;A·V·蒙塞;A·桑彻蒂 | 申请(专利权)人: | 奥多比公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/36 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;彭梦晔 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 元组 非结构化数据 结构化数据 知识图 构建 映射 聚类 匹配 知识库 标识实体 丰富知识 关系顺序 匹配关系 分配 | ||
1.一种用于构建企业特定知识图的计算机实现的方法,所述方法包括:
从至少一个企业特定源接收企业数据,所述企业数据的第一部分是结构化数据并且所述企业数据的第二部分是非结构化数据,所述结构化数据具有多个文本字段,所述多个文本字段中的每个文本字段具有对应值,使得所述结构化数据包括第一多个文本字段/值对;
标识与所述第一多个文本字段/值对中的每个文本字段/值对相对应的关系,所述关系与预定义关系分类中包括的多个预定义关系之一相匹配;
从所述非结构化数据中提取第二多个文本字段/值对,
确定所述第二多个文本字段/值对的第一部分的每个文本字段/值对引用与所述预定义关系分类中包括的所述多个预定义关系之一相匹配的关系,并且所述第二多个文本字段/值对的第二部分的每个文本字段/值对引用与所述预定义关系分类中包括的所述多个预定义关系之一不匹配的关系;
标识所述预定义关系分类中包括的所述多个预定义关系中与所述第二多个文本字段/值对的所述第一部分的每个文本字段/值对相匹配的预定义关系;
顺序地聚类由所述第二多个文本字段/值对的所述第二部分引用的所述关系,使得相似的关系被分组在一起;
基于顺序聚类将分配的关系归于所述第二多个文本字段/值对中的所述文本字段/值对的至少一部分;以及
至少部分根据所述第一多个文本字段/值对及其相应的标识的关系、所述第二多个文本字段/值对的所述第一部分及其相应的标识的关系、以及所述第二多个文本字段/值对的所述第二部分的一部分及其相应的分配的关系来构建所述企业特定知识图。
2.根据权利要求1所述的计算机实现的方法,还包括通过添加基于现有模式而被确定为丢失的第三多个文本字段/值对来丰富所述企业特定知识图。
3.根据权利要求1所述的计算机实现的方法,其中所述第一多个文本字段/值对中的每个文本字段/值对与具有以<主语><谓语><宾语>格式布置的<主语>元素、<谓语>元素和<宾语>元素的结构化数据元组相对应。
4.根据权利要求3所述的计算机实现的方法,其中在给定的结构化数据元组内,所述<主语>元素和所述<宾语>元素中的每个元素引用实体,并且所述<谓语>元素引用由所述<主语>元素和所述<宾语>元素引用的所述实体之间的相关性。
5.根据权利要求4所述的计算机实现的方法,其中标识与所述第一多个文本字段/值对中的每个文本字段/值对相对应的所述关系包括标识所述预定义关系分类中包括的所述多个预定义关系中与每个结构化数据元组的所述<谓语>元素相匹配的特定预定义关系。
6.根据权利要求1所述的计算机实现的方法,其中所述第二多个文本字段/值对中的每个文本字段/值对与具有以<主语><谓语><宾语>格式布置的<主语>元素、<谓语>元素和<宾语>元素的非结构化数据元组相对应。
7.根据权利要求6所述的计算机实现的方法,其中在给定的非结构化数据元组内,所述<主语>元素和所述<宾语>元素中的每个元素引用实体,并且所述<谓语>元素引用由所述<主语>元素和所述<宾语>元素引用的所述实体之间的相关性。
8.根据权利要求7所述的计算机实现的方法,其中标识所述预定义关系分类中包括的所述多个预定义关系中与所述第二多个文本字段/值对的所述第一部分的每个文本字段/值对相匹配的所述预定义关系包括标识所述预定义关系分类中包括的所述多个预定义关系中与每个非结构化数据元组的所述<谓语>元素相匹配的特定预定义关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910033542.1/1.html,转载请声明来源钻瓜专利网。