[发明专利]基于深度学习的集成实体链接方法及系统有效

申请号：	201911166642.8	申请日：	2019-11-25
公开（公告）号：	CN111062214B	公开（公告）日：	2021-11-19
发明（设计）人：	郭嘉丰;范意兴;郭彤蕾;程学旗	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/211;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国
地址：	100080 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习集成实体链接方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的集成实体链接方法，其特征在于，包括：

步骤1、获取文档中待实体链接的指称词，使用局部相似度模型处理该指称词，得到该指称词的候选实体集合中每一个候选实体与指称词相应的局部相似度得分，及候选实体表达向量；

步骤2、根据该候选实体表达向量及该指称词在文档中的出现顺序，使用基于深度学习的全局推断模型得到其候选实体的全局相似度得分，判断全局相似度得分最高的候选实体与局部相似度得分最高的实体是否一致，若是，则将最高得分的候选实体作为最终的实体链接结果，否则将最高得分的候选实体作为初步结果，执行步骤3；

步骤3、使用该全局推断模型，得到该指称词匹配的候选实体的表达向量以替换该候选实体表达向量，根据该表达向量和该指称词在文档中的出现顺序，利用该全局推断模型得到指称词的每一个候选实体的全局相似度得分，选取全局相似度得分最高的候选实体作为该指称词的最佳匹配实体，判断该最佳匹配实体是否和该初步结果相同，若是，则将该最佳匹配实体作为最终的实体链接结果，否则更新全局推断模型的参数后，继续使用全局推断模型得到指称词的最佳匹配实体，直到最佳匹配实体与上一轮指称词的最佳匹配实体相同，将当前该最佳匹配实体作为最终的实体链接结果；

其中，该全局推断模型为文档级别的联合学习上下文和实体关系的第一全局模型；

该第一全局模型具体包括：

对于待链接指称词m_i，指称词m_i的上下文词项序列{x₁，x₂，…，x_N}，将其中第a个词项到第b个词项为指称词m_i的文本名称添加mask遮蔽，构成指称词m_i的上下文序列X_i：{x₁，x₂，...，MASK，...，x_N}；

文档中除当前待链接指称词m_i外的所有指称词{m_j|m_j∈M∧m_j≠m_i}对应的候选实体集合为{e_j|m_j→e_j∧m_j∈M∧m_j≠m_i}，将当前待链接指称词m_i前出现的i-1个指称词{m₁，m₂，…m_i-1}应该被链接到的各自对应实体{e₁，e₂，…e_i-1}所对应的实体向量拼接成一个序列Y_L，当前待链接指称词m_i后出现的n-i个指称词{m_i+1，m_i+2，…m_n}应该被链接到的各自正确的实体{e_i+1，e_i+2，…e_n}所对应的实体向量拼接成一个序列Y_R，将上述三个序列拼接起来作为待链接指称词m_i的全局信息X，拼接方法如下：

X＝[Y_L；X_i；Y_R]

将全局信息X作为Transformer的输入，取当前待链接指称词m_i对应的MASK位置的输出作为编码了全局信息的指称词m_i的表达向量与m_i的一个候选实体e_j的表达向量计算余弦相似度，由此得到待链接指称词m_i和候选实体e_j的该全局相似度得分Φ′(m_i，e_j)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所，未经中国科学院计算技术研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911166642.8/1.html，转载请声明来源钻瓜专利网。

上一篇：EH420级150-200mm特厚钢板的生产方法
下一篇：页面白屏的监控方法及监控装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度学习的集成实体链接方法及系统有效

专利文献下载