[发明专利]知识图谱的构建方法、装置、电子设备有效
申请号: | 201810620223.6 | 申请日: | 2018-06-15 |
公开(公告)号: | CN110674306B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 郑萌;耿璐;李岚 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 黄灿;张博 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种知识图谱的构建方法、装置、电子设备,属于人工智能技术领域。知识图谱的构建方法包括:对待处理文本中的每个句子进行分词和句法依存关系分析,得到分词结果和词序列库;从所述词序列库中筛选出长度大于预设第一阈值的频繁序列;将提升度大于预设第二阈值、频度大于预设第六阈值的频繁序列中包括的单词合并为新增词,更新所述分词结果;根据更新后的分词结果建立近义词组合,根据所述近义词组合更新词序列库,计算所述词序列中单词之间的变体置信度,并根据计算结果判断单词之间的上下位概念,所述变体置信度表示所述词序列中单词或词序列之间的相关性。本发明能够准确有效地从非定义性领域文本中提取出概念和上下位关系。 | ||
搜索关键词: | 知识 图谱 构建 方法 装置 电子设备 | ||
【主权项】:
1.一种知识图谱的构建方法,其特征在于,包括:/n对待处理文本中的每个句子进行分词和句法依存关系分析,得到分词结果和词序列库;/n从所述词序列库中筛选出长度大于预设第一阈值的频繁序列,并计算每一频繁序列的频度以及提升度,其中,频度表示所述频繁序列在所述词序列库中出现的概率,提升度表示所述频繁序列中单词之间的相关性;/n将提升度大于预设第二阈值和频度大于预设第六阈值的频繁序列中包括的单词合并为新增词,并根据所述新增词更新所述分词结果;/n根据更新后的分词结果建立近义词组合,根据所述近义词组合将所述词序列库中的单词替换为同一近义词组合中频度最高的单词;/n获取更新后的词序列库中频度高于预设第三阈值且长度为预设第四阈值的词序列,计算所述词序列中单词之间的变体置信度,并根据计算结果判断单词之间的上下位概念,所述变体置信度表示所述词序列中单词或词序列之间的相关性。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810620223.6/,转载请声明来源钻瓜专利网。