[发明专利]基于深度学习的集成实体链接方法及系统有效
申请号: | 201911166642.8 | 申请日: | 2019-11-25 |
公开(公告)号: | CN111062214B | 公开(公告)日: | 2021-11-19 |
发明(设计)人: | 郭嘉丰;范意兴;郭彤蕾;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 集成 实体 链接 方法 系统 | ||
本发明提出一种基于深度学习的集成实体链接方法及系统。首先选取某一个局部相似度模型,对待链接文档给出初步的链接结果。随后,根据每个指称词相应候选实体集合的局部相似度得分,候选实体集合生成方法本发明不加以限制,可采用现有任意候选实体生成方法;局部相似度得分即所选用的局部相似度模型对每个候选实体计算出来的相似度得分,按照下述方法计算每个指称词的有效候选实体集合表达向量。结合全局推断算法,利用指称词所在的文档的文本信息和同一文档中指称词之间的相互关联性完成实体链接任务。本发明利用同一文档中指称词之间的相互关联丰富指称词的语义信息,能够更好地辨别指称词的含义,达到良好的实体链接性能。
技术领域
本发明涉及实体链接技术领域,并特别涉及一种基于深度学习的集成实体链接方法及系统。
背景技术
实体链接是指将文本中的实体提及映射到给定的知识库,例如,“XX会见了AA”,“XX”就是一个实体提及,需要将其链接到知识库中实体,该实体可例如是XX的全称。实体链接是自然语言理解中一个基础性的任务。
实体链接模型可以分为独立链接、集成链接和协同链接三大类,其中集成链接方法基于一个文档中提及的指称词通常只涉及到一个或者少数几个主题的假设,即主题一致性。这类方法认为同一文档中指称词的链接过程是彼此相关的,他们的链接应该是基于探索主体一致性来集成地完成的。集成链接方法通过建模同一个文档中指称词之间的相互影响,通过它们之间的相互关系来指导每一个指称词的候选实体排序。
现有的基于传统方法的集成链接模型一类是基于构造指称词-实体关系图完成,其中指称词和实体之间边的权重由二者上下文文本相似度衡量,实体和实体之间边的权重由二者的相关性衡量。基于图的传统集成链接方法包括基于随机游走和PageRank的方法、为每一个指称词定义一个只包含一个指称词-实体边的稠密子图等。第二类是基于概率模型完成链接,例如基于主题模型的方法。
现有的深度学习实体链接模型大多基于按顺序独立解决单个指称词的链接、从而完成整个文档消歧的过程,这类方法仅仅利用指称词附近的上下文文本信息,缺乏对同一文档中指称词彼此间的相关性的探究分析。
现有的基于传统方法的集成链接模型在模拟主题相关性方面,需要定义一个衡量方法来学习同一段上下文中指称词和候选实体的语义相关度,这就导致在很多样例中会产生不可靠的相关性,并且会倾向于选择更为流行的实体;基于主题模型的传统方法假设一个实体对应一个主题,这使得主题模型很难应用在大规模知识库上,并且模型的训练目标与实体消歧性能没有直接关联;基于图的方法计算代价太高。
基于深度学习的方法虽然在特征抽取上性能更为强大,但是这些方法仅仅利用指称词附近的上下文文本信息,缺乏对同一文档中指称词彼此间的相关性的探究分析,而这种相互关联性对于实体链接的过程具有重要的意义。
发明内容
本发明的目的是解决上述现有技术对全局信息利用不充分和可扩展性差的问题,提出了一种基于深度学习的集成实体链接方法包括两种全局推断模型,分别是联合学习上下文和实体关系的全局推断模型,和,独立建模上下文和实体关系的全局推断模型。
具体来说,本发明提出一种基于深度学习的集成实体链接方法,其中包括:
步骤1、获取文档中待实体链接的指称词,使用局部相似度模型处理该指称词,得到该指称词的候选实体集合中每一个候选实体与指称词相应的局部相似度得分,及候选实体表达向量;
步骤2、根据该候选实体表达向量及该指称词在文档中的出现顺序,使用基于深度学习的全局推断模型得到其候选实体的全局相似度得分,判断全局相似度得分最高的候选实体与局部相似度得分最高的实体是否一致,若是,则将最高得分的候选实体作为最终的实体链接结果,否则将最高得分的候选实体作为初步结果,执行步骤3;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911166642.8/2.html,转载请声明来源钻瓜专利网。