[发明专利]一种实体链接方法、装置、设备及存储介质在审
申请号: | 202210466937.2 | 申请日: | 2022-04-29 |
公开(公告)号: | CN114841164A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 赵雅倩;徐聪;郭振华;范宝余;金良;刘璐;闫瑞栋 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/194;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 赵怡琳 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 链接 方法 装置 设备 存储 介质 | ||
1.一种实体链接方法,其特征在于,包括:
获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;
构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;
利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
2.根据权利要求1所述的实体链接方法,其特征在于,所述获取与输入文本对应的实体提及,包括:
利用第二模型确定所述输入文本的实体提及位置,并根据实体提及位置确定出与所述输入文本对应的所述实体提及。
3.根据权利要求2所述的实体链接方法,其特征在于,所述第二模型包括BERT神经网络和CRF神经网络;
相应的,所述利用第二模型确定所述输入文本的实体提及位置,包括:
将所述输入文本的词向量依次通过所述BERT神经网络和所述CRF神经网络进行处理,得到表征实体提及位置的BIO标签。
4.根据权利要求1所述的实体链接方法,其特征在于,获取所述实体提及的候选实体以及所述候选实体的实体描述,包括:
利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度,并将大于第一阈值的所述匹配度对应的别名种类的实体确定为所述候选实体;
从所述实体列表中读取出所述候选实体的所述实体描述。
5.根据权利要求1所述的实体链接方法,其特征在于,还包括:
获取所述训练文本;
利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的所述实体提及训练样本,并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本;
从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本;
将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列,以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列;
利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型。
6.根据权利要求5所述的实体链接方法,其特征在于,所述利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型,包括:
利用预训练模型分别计算所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列的表征向量,并根据由各表征向量之间的所述相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使所述损失值小于第二阈值。
7.根据权利要求1至6任一项所述的实体链接方法,其特征在于,还包括:
将获取所述实体提及的第二模型、获取所述候选实体的所述第三模型和所述第三模型集成至一个模型,以得到对应的端到端整合模型;
在进行模型训练时,通过对采用交叉熵损失函数的所述第二模型进行训练并以训练后的所述第二模型的输出作为所述第一模型的输入对所述第一模型进行训练;
在进行实体链接时,将所述输入文本输入至所述端到端整合模型以依次经过所述第二模型、所述第三模型和所述第一模型处理后输出相应的所述相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210466937.2/1.html,转载请声明来源钻瓜专利网。