[发明专利]一种基于主题向量学习的实体链接预测方法有效
申请号: | 202110214535.9 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112989803B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 何熙 | 申请(专利权)人: | 成都增强视图科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F40/30;G06F16/35;G06N3/08 |
代理公司: | 北京盛凡佳华专利代理事务所(普通合伙) 11947 | 代理人: | 王翠 |
地址: | 610000 四川省成都市中国(四川)自由*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 向量 学习 实体 链接 预测 方法 | ||
本发明公开了一种基于主题向量学习的实体链接模型,包括知识库、百度文档、标注数据和Skip‑gram模型,获取包含待分析的目标实体的文档,根据实体命名词典对所有待分析目标实体生成候选实体集合,并获取所有候选实体的表征向量;本发明一种基于主题向量学习的实体链接模型通过对文档主题向量的多任务学习,将文档中的所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果与文档主题的相关性,用以解决文档中所有实体链接结果互相的相关性难以计算的难题,在训练过程中,使用文档分类数据集进一步加强对文档主题向量的学习,从而降低了实体链接算法的时间复杂度,并进一步提高了实体链接的准确度;进而提高实体链接的整体流程效率。
技术领域
本发明涉及实体链接技术领域,具体为一种基于主题向量学习的实体链接预测方法。
背景技术
实体链接技术是自然语言处理领域的一项重要技术,其目的是将自然语言文本中的实体链接到知识图谱中的实体,是信息抽取的重要环节。实体链接通常包括生成候选实体和实体消歧两步,候选实体通常基于构建实体别名词典并匹配的方式生成,模型从候选实体中选择链接结果,常用特征有实体属性、先验统计、上下文编码等。
在实体消歧方法中,除了根据上述特征对候选实体进行相关性排序之外,通常加入文档中所有实体的链接结果两两之间的相关性约束,为实体链接提供更丰富的信息,理论上该相关性的计算是NP难问题,许多研究者设计了各种方法近似该相关性的计算。
发明内容
本发明的目的克服现有技术的不足,提供一种基于主题向量学习的实体链接模型,具有通过对文档主题向量的多任务学习、将文档中所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果和文档主题的相关性、用以解决文档中所有实体链接结果互相的相关性难以计算的问题的优点,解决了现有技术中的问题。
为实现上述目的,本发明提供如下技术方案:一种基于主题向量学习的实体链接模型,包括知识库、百度文档、标注数据和Skip-gram模型。
步骤如下:
S1:获取包含待分析的目标实体的文档;
S2:根据实体命名词典对所有待分析目标实体生成候选实体集合,并获取所有候选实体的表征向量;
S3:将含有目标实体的待分析的句子和所有候选实体的表征向量输入模型,模型计算所有候选实体的得分及其与主题向量的相关性,预测链接的实体;
S4:获取训练数据,训练实体链接模型,模型计算所有候选实体与待分析实体的相关性,模型计算文档主题向量,根据主题向量计算所有候选实体与输入文档主题的相关性;
S5:将含有待分析实体的文档和所有候选实体的预训练表征向量输入模型,模型根据上述两个相关性预测链接的实体。
优选的,所述命名实体词典是基于知识库、百科文档、标注数据等生成的,实体表征向量和模型是的训练获得的。
优选的,所述预训练实体向量的模型为基于Skip-gram模型的简单全连接神经网络,用当前实体向量预测知识库中相邻的实体,并增加正则约束,使得当前实体向量与其别名的预训练词向量接近;
具体包括以下模块:
(1)输入层:输入知识库中的一个目标实体,通过查询表转化为实体向量E;
(2)分类层:实体向量E经过全连接层并经过Softmax操作,转化为知识库中每个实体的概率,预测每一个实体是否为输入实体在目标知识库中的相邻实体
(3)结构损失:根据输入实体在目标知识库中的相邻实体的真实标签计算交叉熵损失;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都增强视图科技有限公司,未经成都增强视图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110214535.9/2.html,转载请声明来源钻瓜专利网。