[发明专利]实体消歧方法、装置、设备及存储介质在审
| 申请号: | 202111308337.5 | 申请日: | 2021-11-05 |
| 公开(公告)号: | CN114021570A | 公开(公告)日: | 2022-02-08 |
| 发明(设计)人: | 门玉玲 | 申请(专利权)人: | 平安普惠企业管理有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06F16/36;G06F16/903;G06F40/194;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
| 地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 方法 装置 设备 存储 介质 | ||
本申请公开了一种实体消歧方法、装置、设备及存储介质,通过获取待消歧实体,基于待消歧实体的词边界确定待消歧实体的实体边界信息;根据待消歧实体的实体边界信息,将待消歧实体划分为至少一个词实体,将至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到待消歧实体的候选实体,确定候选实体的子项信息;根据候选实体和子项信息,构成候选样本集,将候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;最后根据文本相似度预测模型预测候选样本集中各样本与待消歧实体中各实体之间的相似度,基于相似度得到各实体的链接实体。能够更精准的得到待消歧实体的链接实体。
技术领域
本申请涉及AI技术领域,尤其涉及一种实体消歧方法、装置、设备及存储介质。
背景技术
随着互联网的发展,在人工智能领域中,为了满足人们对信息获取的需求,越来越多的用户开始通过互联网的搜索功能获取自己所需要的信息。
实体链接技术就是将一段文本中的某些字符串映射到知识库中对应的实体上,但是由于常存在同名异实体或者同实体异名的现象,导致现有的实体消歧技术存在实体边界不清楚且存在歧义的问题。
发明内容
本申请提供了一种实体消歧方法、装置、设备及存储介质,通过将待消歧实体的实体边界信息和候选实体的子项信息结合起来,对预训练的语言模型进行训练,得到具有准确确定文本相似度的模型,进而可以更精准的得到待消歧实体的链接实体。
第一方面,本申请提供了一种实体消歧方法,包括:
获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;
根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息,其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息;
根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;
根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。
第二方面,本申请还提供了一种实体消歧装置,包括:
第一确定模块,用于获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;
第二确定模块,用于根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息,其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息;
第一得到模块,用于根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;
第二得到模块,用于根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。
第三方面,本申请还提供了一种实体消歧设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的实体消歧方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安普惠企业管理有限公司,未经平安普惠企业管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111308337.5/2.html,转载请声明来源钻瓜专利网。





