[发明专利]知识图谱的构建方法、装置、电子设备有效

专利信息
申请号: 201810620223.6 申请日: 2018-06-15
公开(公告)号: CN110674306B 公开(公告)日: 2023-06-20
发明(设计)人: 郑萌;耿璐;李岚 申请(专利权)人: 株式会社日立制作所
主分类号: G06F16/36 分类号: G06F16/36
代理公司: 北京银龙知识产权代理有限公司 11243 代理人: 黄灿;张博
地址: 日本*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 知识 图谱 构建 方法 装置 电子设备
【说明书】:

发明提供一种知识图谱的构建方法、装置、电子设备,属于人工智能技术领域。知识图谱的构建方法包括:对待处理文本中的每个句子进行分词和句法依存关系分析,得到分词结果和词序列库;从所述词序列库中筛选出长度大于预设第一阈值的频繁序列;将提升度大于预设第二阈值、频度大于预设第六阈值的频繁序列中包括的单词合并为新增词,更新所述分词结果;根据更新后的分词结果建立近义词组合,根据所述近义词组合更新词序列库,计算所述词序列中单词之间的变体置信度,并根据计算结果判断单词之间的上下位概念,所述变体置信度表示所述词序列中单词或词序列之间的相关性。本发明能够准确有效地从非定义性领域文本中提取出概念和上下位关系。

技术领域

本发明涉及人工智能技术领域,特别是指一种知识图谱的构建方法、装置、电子设备。

背景技术

知识图谱的构建是自然语言处理和机器语言中的一个重要组成部分。目前大部分知识图谱的构建方法,都是从互联网中提取文本,并从这些文本中发现概念并判定上下位关系。现有知识图谱的构建方法在提取上下位关系的时候往往需要某些预先规定的句式,例如,“深度学习是机器学习方法中的一种”,“word是微软的office软件中专门用于文字处理的软件”等。这样的句式往往可以在诸如说明书,百科词典等语料库中大量找到。但是在现实生活中,同样存在许多场景下,并不存在说明书等对实体概念进行专门定义的文本。例如一台比较复杂的设备,说明书中通常不会为用户提供极为细致的部件定义或提示,指明部件A是部件B的一部分等等。另外,大量的领域性文本,例如客服记录,维修记录等,通常是以较为简洁的方式记录,同时假设阅读者具备较强的领域知识积累,同样不会对文本中涉及的实体概念进行定义性描述。此时,现有的知识图谱的构建方法无法准确有效地从非定义性领域文本中提取出概念和上下位关系。

发明内容

本发明要解决的技术问题是提供一种知识图谱的构建方法、装置、电子设备,能够准确有效地从非定义性领域文本中提取出概念和上下位关系。

为解决上述技术问题,本发明的实施例提供技术方案如下:

一方面,提供一种知识图谱的构建方法,包括:

对待处理文本中的每个句子进行分词和句法依存关系分析,得到分词结果和词序列库;

从所述词序列库中筛选出长度大于预设第一阈值的频繁序列,并计算每一频繁序列的频度以及提升度,其中,频度表示所述频繁序列在所述词序列库中出现的概率,提升度表示所述频繁序列中单词之间的相关性;

将提升度大于预设第二阈值和频度大于预设第六阈值的频繁序列中包括的单词合并为新增词,并根据所述新增词更新所述分词结果;

根据更新后的分词结果建立近义词组合,根据所述近义词组合将所述词序列库中的单词替换为同一近义词组合中频度最高的单词;

获取更新后的词序列库中频度高于预设第三阈值且长度为预设第四阈值的词序列,计算所述词序列中单词之间的变体置信度,并根据计算结果判断单词之间的上下位概念,所述变体置信度表示所述词序列中单词或词序列之间的相关性。

进一步地,所述对待处理文本中的每个句子进行分词和句法依存关系分析,得到分词结果和词序列库包括:

对所述待处理文本中的每个句子进行分词,得到分词结果;

基于所述分词结果,对所述待处理文本中的每个句子进行句法依存关系分析,并根据句法依存关系分析结果对所述分词结果进行纠正,得到每个句子对应的至少一组词序列,得到包括所有句子的词序列的词序列库。

进一步地,所述根据句法依存关系分析结果对所述分词结果进行纠正,得到每个句子对应的至少一组词序列包括:

当句子中心词是名词时,确定中心词,并递归的找到该中心词的所有定中关系修饰词,生成包括该中心词和该中心词的所有定中关系修饰词的词序列;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810620223.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top