[发明专利]实体链接方法、系统、存储介质及电子设备在审
| 申请号: | 202110789062.5 | 申请日: | 2021-07-13 |
| 公开(公告)号: | CN113641922A | 公开(公告)日: | 2021-11-12 |
| 发明(设计)人: | 崔小波 | 申请(专利权)人: | 北京明略软件系统有限公司 |
| 主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/34;G06F16/33;G06F16/36;G06F40/279 |
| 代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
| 地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 实体 链接 方法 系统 存储 介质 电子设备 | ||
本申请公开了一种实体链接方法、系统、存储介质及电子设备,实体链接方法包括:文档实体列表获得步骤:使用实体识别模型对在线文档进行实体识别,获得文档实体列表;用户名称获取步骤:为每一登陆用户分配一个I D获得标识i d,通过所述标识i d获得用户名称列表;摘要向量获取步骤:根据在线文档通过TextRank算法获取所述在线文档的摘要向量;链接步骤:根据所述文档实体列表及所述用户名称列表获取词向量,根据所述词向量及所述摘要向量获得相似度,根据所述相似度及所设置的阈值进行实体链接。本发明利用了文本摘要、图中的实体、实体属性、关系的相关度高低情况,提高了实体链接的准确率和召回率。
技术领域
本发明属于实体链接领域,具体涉及一种实体链接方法、系统、存储介质及电子设备。
背景技术
随着互联网、云技术和人工智能的兴起和快速发展,文本数据出现爆炸式增长,由于在线文档能够支持用户随时随地的对文档进行编辑、多用户之间协同编辑、云端存储等特性,越来越受用户和企业的青睐。相应的就会产生越来越多的在线数据,用户和企业迫切需要高效、智能的在线文本分析技术,来理解数据的真实意义,从而帮助用户和企业快速获取有用信息。实体链接技术是一种文本分析技术,它将文本数据中出现的词或词组做为实体,关联到知识图谱库中对应的实体ID。这样,用户就可以通过实体链接来理解文本数据的真实含义,为我们理解文本数据的语义信息提供了很大便利。
针对非在线文档,当前实体链接的主要做法是,对文本中的实体,以及文本实体的上下文语义向量,与知识图谱中的候选实体、实体属性向量和关系向量进行相似度计算,并对相似度分值进行排序,相似度分值超过阈值则关联到知识库实体,否则,不关联。
发明内容
本申请实施例提供了一种实体链接方法、系统、存储介质及电子设备,以至少解决现有的实体链接方法中只针对非在线文档的实体链接的问题。
本发明提供了一种实体链接方法,其中,包括:
文档实体列表获得步骤:使用实体识别模型对在线文档进行实体识别,获得文档实体列表;
用户名称获取步骤:为每一登陆用户分配一个ID获得标识id,通过所述标识id获得用户名称列表;
摘要向量获取步骤:根据在线文档通过TextRank算法获取所述在线文档的摘要向量;
链接步骤:根据所述文档实体列表及所述用户名称列表获取词向量,根据所述词向量及所述摘要向量获得相似度,根据所述相似度及所设置的阈值进行实体链接。
上述实体链接方法,其中,所述摘要向量获取步骤包括:
分割步骤:把所述在线文本分割成多个组成单元;
构建步骤:构建节点连接图;
计算步骤:用句子之间的相似度作为边的权重,通过TextRank公式循环迭代计算句子的TextRank值;
组成步骤:抽取所述TextRank值排名高的句子组合成文本摘要;
摘要向量计算步骤:对所述文本摘要进行处理后获得多个特征词向量,根据所述特征词向量获得所述摘要向量。
上述实体链接方法,其中,所述链接步骤包括:
记录每一条关系路径中的节点名称,节点属性,实体关系,获取关系路径中的节点名称,节点属性,实体关系的词向量,相加构成词向量值,记录节点的id值。
上述实体链接方法,其中,所述链接步骤包括:
组成步骤:获取所述在线文档实体列表中的每一个实体,与多用户名称列表中的每一个用户名称,组成实体对;
搜索步骤:在知识图谱中搜索名称为实体对中所指节点间的关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110789062.5/2.html,转载请声明来源钻瓜专利网。





