[发明专利]一种基于主题向量学习的实体链接预测方法有效
申请号: | 202110214535.9 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112989803B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 何熙 | 申请(专利权)人: | 成都增强视图科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F40/30;G06F16/35;G06N3/08 |
代理公司: | 北京盛凡佳华专利代理事务所(普通合伙) 11947 | 代理人: | 王翠 |
地址: | 610000 四川省成都市中国(四川)自由*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 向量 学习 实体 链接 预测 方法 | ||
1.一种基于主题向量学习的实体链接预测方法,包括知识库、百度文档、标注数据和Skip-gram模型,其特征在于:所述步骤如下:
S1:获取包含待分析的目标实体的文档;
S2:根据实体命名词典对所有待分析目标实体生成候选实体集合,并获取所有候选实体的表征向量;
S3:将含有目标实体的待分析的句子和所有候选实体的表征向量输入模型;
S4:获取训练数据训练实体链接模型,进而模型计算所有候选实体与待分析实体的相关性,对文档中的每个目标实体i,对实体i在知识库中的每个目标实体j,根据文档中的实体表示ei和预训练实体表征Ej计算实体链接结果的相关性Pij;
S5:模型计算文档主题向量,模型计算所有候选实体的得分及其与主题向量的相关性,根据主题向量计算所有候选实体与输入文档主题的相关性,从目标知识库中选取若干文档中出现过的实体和未出现过的实体组成文本候选实体集合,实体链接层计算主题向量s和该实体集合中的每一个实体j的相关性qj;
S6:将含有待分析实体的文档和所有候选实体的预训练表征向量输入模型,模型根据上述候选实体和该实体的相关性Pij以及候选实体和文档主题的相关性qj,选取Pij+qj最大作为预测链接的实体。
2.根据权利要求1所述的一种基于主题向量学习的实体链接预测方法,其特征在于:所述实体命名词典是基于知识库、百科文档、标注数据生成的,实体表征向量和模型是的训练获得的。
3.根据权利要求1所述的一种基于主题向量学习的实体链接预测方法,其特征在于:所述候选实体的预训练表征向量模型为基于Skip-gram模型的简单全连接神经网络,用当前实体向量预测知识库中相邻的实体,并增加正则约束,使得当前实体向量与其别名的预训练词向量接近;
具体包括以下模块:
(1)输入层:输入知识库中的一个目标实体,通过查询表转化为实体向量E;
(2)分类层:实体向量E经过全连接层并经过Softmax操作,转化为知识库中每个实体的概率,预测每一个实体是否为输入实体在目标知识库中的相邻实体
(3)结构损失:根据输入实体在目标知识库中的相邻实体的真实标签计算交叉熵损失;
(4)语义损失:为使实体向量包含更多语义信息,在语料中随机选择一个输入实体别名中出现过的词W+和一个未出现过的词W-,语义损失L使得输入实体向量E接近词W+的预训练词向量XW+并远离词W-的预训练词向量XW-:
L=||E-xw+||2-||E-xw-||2
其中∣∣·∣∣2为L2范数。
4.根据权利要求1所述的一种基于主题向量学习的实体链接预测方法,其特征在于:所述实体链接模型基于多任务学习的双向长短期记忆网络,训练任务包括:以实体的上下文表征预测其和每个候选实体的相关性、基于文档中的是否出现相关实体的排序损失训练文档主题向量、使用文本分类数据集预测文档主题强化文档主题向量的训练。
5.根据权利要求3所述的一种基于主题向量学习的实体链接预测方法,其特征在于:所述S4中实体表征向量的预训练流程具体步骤如下:
(1)从知识库中选择一个目标实体作为输入实体输入模型;
(2)按概率随机选择一个正样本或一个负样本;
(3)在语料中随机选择一个目标实体别名中出现过的词W+和一个未出现过的词W-,在Word2Vec预训练词向量中查询其词向量XW+和W-;
(4)计算结构损失和语义损失,并更新网络参数;
(5)重复上述步骤直至训练结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都增强视图科技有限公司,未经成都增强视图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110214535.9/1.html,转载请声明来源钻瓜专利网。