[发明专利]一种基于主题向量学习的实体链接预测方法有效

申请号：	202110214535.9	申请日：	2021-02-25
公开（公告）号：	CN112989803B	公开（公告）日：	2023-04-18
发明（设计）人：	何熙	申请（专利权）人：	成都增强视图科技有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/242;G06F40/30;G06F16/35;G06N3/08
代理公司：	北京盛凡佳华专利代理事务所(普通合伙) 11947	代理人：	王翠
地址：	610000 四川省成都市中国（四川）自由***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主题向量学习实体链接预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于主题向量学习的实体链接模型，包括知识库、百度文档、标注数据和Skip‑gram模型，获取包含待分析的目标实体的文档，根据实体命名词典对所有待分析目标实体生成候选实体集合，并获取所有候选实体的表征向量；本发明一种基于主题向量学习的实体链接模型通过对文档主题向量的多任务学习，将文档中的所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果与文档主题的相关性，用以解决文档中所有实体链接结果互相的相关性难以计算的难题，在训练过程中，使用文档分类数据集进一步加强对文档主题向量的学习，从而降低了实体链接算法的时间复杂度，并进一步提高了实体链接的准确度；进而提高实体链接的整体流程效率。

技术领域

本发明涉及实体链接技术领域，具体为一种基于主题向量学习的实体链接预测方法。

背景技术

实体链接技术是自然语言处理领域的一项重要技术，其目的是将自然语言文本中的实体链接到知识图谱中的实体，是信息抽取的重要环节。实体链接通常包括生成候选实体和实体消歧两步，候选实体通常基于构建实体别名词典并匹配的方式生成，模型从候选实体中选择链接结果，常用特征有实体属性、先验统计、上下文编码等。

在实体消歧方法中，除了根据上述特征对候选实体进行相关性排序之外，通常加入文档中所有实体的链接结果两两之间的相关性约束，为实体链接提供更丰富的信息，理论上该相关性的计算是NP难问题，许多研究者设计了各种方法近似该相关性的计算。

发明内容

本发明的目的克服现有技术的不足，提供一种基于主题向量学习的实体链接模型，具有通过对文档主题向量的多任务学习、将文档中所有实体链接结果之间的相关性计算转化为文档中每个实体链接结果和文档主题的相关性、用以解决文档中所有实体链接结果互相的相关性难以计算的问题的优点，解决了现有技术中的问题。

为实现上述目的，本发明提供如下技术方案：一种基于主题向量学习的实体链接模型，包括知识库、百度文档、标注数据和Skip-gram模型。

步骤如下：

S1：获取包含待分析的目标实体的文档；

S2：根据实体命名词典对所有待分析目标实体生成候选实体集合，并获取所有候选实体的表征向量；

S3：将含有目标实体的待分析的句子和所有候选实体的表征向量输入模型，模型计算所有候选实体的得分及其与主题向量的相关性，预测链接的实体；