[发明专利]基于深度学习的集成实体链接方法及系统有效
| 申请号: | 201911166642.8 | 申请日: | 2019-11-25 |
| 公开(公告)号: | CN111062214B | 公开(公告)日: | 2021-11-19 |
| 发明(设计)人: | 郭嘉丰;范意兴;郭彤蕾;程学旗 | 申请(专利权)人: | 中国科学院计算技术研究所 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
| 地址: | 100080 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 集成 实体 链接 方法 系统 | ||
1.一种基于深度学习的集成实体链接方法,其特征在于,包括:
步骤1、获取文档中待实体链接的指称词,使用局部相似度模型处理该指称词,得到该指称词的候选实体集合中每一个候选实体与指称词相应的局部相似度得分,及候选实体表达向量;
步骤2、根据该候选实体表达向量及该指称词在文档中的出现顺序,使用基于深度学习的全局推断模型得到其候选实体的全局相似度得分,判断全局相似度得分最高的候选实体与局部相似度得分最高的实体是否一致,若是,则将最高得分的候选实体作为最终的实体链接结果,否则将最高得分的候选实体作为初步结果,执行步骤3;
步骤3、使用该全局推断模型,得到该指称词匹配的候选实体的表达向量以替换该候选实体表达向量,根据该表达向量和该指称词在文档中的出现顺序,利用该全局推断模型得到指称词的每一个候选实体的全局相似度得分,选取全局相似度得分最高的候选实体作为该指称词的最佳匹配实体,判断该最佳匹配实体是否和该初步结果相同,若是,则将该最佳匹配实体作为最终的实体链接结果,否则更新全局推断模型的参数后,继续使用全局推断模型得到指称词的最佳匹配实体,直到最佳匹配实体与上一轮指称词的最佳匹配实体相同,将当前该最佳匹配实体作为最终的实体链接结果;
其中,该全局推断模型为文档级别的联合学习上下文和实体关系的第一全局模型;
该第一全局模型具体包括:
对于待链接指称词mi,指称词mi的上下文词项序列{x1,x2,…,xN},将其中第a个词项到第b个词项为指称词mi的文本名称添加mask遮蔽,构成指称词mi的上下文序列Xi:{x1,x2,...,MASK,...,xN};
文档中除当前待链接指称词mi外的所有指称词{mj|mj∈M∧mj≠mi}对应的候选实体集合为{ej|mj→ej∧mj∈M∧mj≠mi},将当前待链接指称词mi前出现的i-1个指称词{m1,m2,…mi-1}应该被链接到的各自对应实体{e1,e2,…ei-1}所对应的实体向量拼接成一个序列YL,当前待链接指称词mi后出现的n-i个指称词{mi+1,mi+2,…mn}应该被链接到的各自正确的实体{ei+1,ei+2,…en}所对应的实体向量拼接成一个序列YR,将上述三个序列拼接起来作为待链接指称词mi的全局信息X,拼接方法如下:
X=[YL;Xi;YR]
将全局信息X作为Transformer的输入,取当前待链接指称词mi对应的MASK位置的输出作为编码了全局信息的指称词mi的表达向量与mi的一个候选实体ej的表达向量计算余弦相似度,由此得到待链接指称词mi和候选实体ej的该全局相似度得分Φ′(mi,ej)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911166642.8/1.html,转载请声明来源钻瓜专利网。





