[发明专利]用于提取语义三元组以建立知识库的系统在审

专利信息
申请号: 201911132213.9 申请日: 2019-11-18
公开(公告)号: CN111199795A 公开(公告)日: 2020-05-26
发明(设计)人: 达米尔·尤里克;乔治斯·斯托伊洛斯;乔纳森·穆尔;穆罕默德·胡达达迪 申请(专利权)人: 巴比伦合伙有限公司
主分类号: G16H50/20 分类号: G16H50/20;G06F16/35;G06F16/33;G06F40/295;G06F40/30
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 吴晓兵
地址: 英国*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 提取 语义 三元 建立 知识库 系统
【说明书】:

本公开涉及一种生成语义三元组的计算机实现的方法,该语义三元组用于建立知识库以包括与从非结构化文本导出的语义三元组相关联的数据模式。该方法包括:提供与包括主动词和分类动词的非结构化文本相关联的句子;生成包括第一主语、第一关系和第一宾语的第一构架;生成包括第二主语、第二关系和第二宾语的第二构架;识别第一主语与第二主语或第二宾语中的公共子字符串、或第一宾语与第二主语或第二宾语中的公共子字符串;使用第一构架生成语义三元组,并用具有公共子字符串的第二主语或第二宾语替换具有公共子字符串的第一主语或第一宾语;以及发送语义三元组以作为数据模式包括在知识库中。

技术领域

本文描述的实施例涉及用于建立对本体进行定义的知识库(KB)的方法和系统。

背景技术

已创建KB用于文档(文本或图像)的语义注释、语义搜索、推理、自动诊断、对话系统以及许多其他基于知识的应用。KB包括多个概念和链接概念的关系。它通常是由域专家手动创建的,但这可能很费力、费时且成本高昂。备选地,也可以通过输入文本、识别文本中的句子、从句子导出语义三元组、然后存储这些三元组或将它们链接到现有KB,来自动地(半自动地)构建它。这样,可以创建和扩充KB。

本公开的目的是对现有技术进行改进。特别地,本公开解决了与计算机技术有关并且在计算机网络领域中出现的技术问题,即,发送速度慢的技术问题。所公开的系统通过减少经由系统发送以包括在知识库中的语义三元组的数量来解决该技术问题。另外,该系统发送较高质量的三元组以包括在知识库中,从而减少了在使用期间搜索知识库时所需的处理。

发明内容

根据本公开的一个方面,提供了一种生成语义三元组的计算机实现的方法,所述语义三元组用于建立知识库以包括与从非结构化文本导出的语义三元组相关联的数据模式,所述方法包括:提供与包括主动词和分类动词的非结构化文本相关联的句子,其中所述分类动词描述分类关系;生成包括第一主语、第一关系和第一宾语的第一构架,其中第一关系包括主动词,第一主语和第一宾语均包括包含一个或多个子字符串的短语;生成包括第二主语、第二关系和第二宾语的第二构架,其中第二关系包括分类动词,第二主语和第二宾语均包括包含一个或多个子字符串的短语;识别第一主语与第二主语或第二宾语中的公共子字符串、或第一宾语与第二主语或第二宾语中的公共子字符串;使用第一构架生成语义三元组,并用具有公共子字符串的第二主语或第二宾语替换具有公共子字符串的第一主语或第一宾语;以及发送所述语义三元组以作为数据模式包括在所述知识库中。

所述分类动词可以源自于基本动词。

根据本公开的另一方面,提供了一种生成语义三元组的计算机实现的方法,所述语义三元组用于建立知识库以包括与从非结构化文本导出的语义三元组相关联的数据模式,所述方法包括:提供包括主语、关系和宾语的语义三元组,其中所述主语和所述宾语均包括包含一个或多个子字符串的短语,并且所述关系包括动词;识别所述主语的一个子字符串表达所述主语的其他子字符串与所述宾语之间的关系,或者所述宾语的一个子字符串表达所述宾语的其他子字符串与所述主语之间的关系;通过以下操作生成修改后的语义三元组:根据所述关系,用所述主语或所述宾语的被识别为表达所述关系的所述子字符串来替换所述三元组的所述关系;以及用不用于替换所述三元组的所述关系的其余子字符串来替换包括表达所述关系的所述子字符串在内的所述主语或所述宾语;以及发送所述修改后的语义三元组以作为数据模式包括在所述知识库中。

所识别的子字符串可以是从已知的表达关系的名词的预定义列表中选择的名词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于巴比伦合伙有限公司,未经巴比伦合伙有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911132213.9/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top