[发明专利]一种实体链指结果的确定方法和装置在审
| 申请号: | 202110043192.4 | 申请日: | 2021-01-13 |
| 公开(公告)号: | CN112732917A | 公开(公告)日: | 2021-04-30 |
| 发明(设计)人: | 宋宇航;付骁弈 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/28;G06F16/901;G06F40/216;G06F40/295 |
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李曼 |
| 地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 实体 结果 确定 方法 装置 | ||
本申请提供了一种实体链指结果的确定方法和装置,属于实体链指技术领域。所述方法包括:确定目标文本中的目标实体,并从知识库中获取所述目标实体对应的候选实体;根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征,其中,所述候选文本为所述候选实体所在的上下文本;将所述多个候选特征输入感知器,得到所述感知器输出的每个候选实体的特征值;在多个所述特征值中的最大特征值不小于预设阈值的情况下,将所述最大特征值对应的候选实体作为所述目标实体的实体链指结果。本申请提高了链指结果的准确性。
技术领域
本申请涉及实体链指技术领域,尤其涉及一种实体链指结果的确定方法和装置。
背景技术
近年来,随着深度学习技术的发展和数据、算力的快速提升,自然语言处理领域迎来了蓬勃的发展,知识图谱作为NLP领域的一个重要技术,在工业界和学术界也成为人们关注的焦点。而在构建知识图谱的过程中,由于数据越来越庞大,图谱的规模也不断的扩大,目前最大的中文知识图谱已经拥有数亿实体和千亿事实,具备丰富的知识标注与关联能力。在构建图谱中的实体链指问题,也成为了提成图谱质量的关键。实体链指,简称EL(Entity Linking),即对于给定的一个中文短文本(如搜索Query、微博、对话内容、文章/视频/图片的标题等),将其中的实体与给定知识库中对应的实体进行关联。
目前的实体链指只关注中文短文本中的实体本身,并没有考虑到实体所在的上下文,即实体所在的语境,这样会导致实体链指的结果不准确。
发明内容
本申请实施例的目的在于提供一种实体链指结果的确定方法和装置,以解决实体链指的结果不准确的问题。具体技术方案如下:
第一方面,提供了一种实体链指结果的确定方法,所述方法包括:
确定目标文本中的目标实体,并从知识库中获取所述目标实体对应的候选实体;
根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征,其中,所述候选文本为所述候选实体所在的上下文本;
将所述多个候选特征输入感知器,得到所述感知器输出的每个候选实体的特征值;
在多个所述特征值中的最大特征值不小于预设阈值的情况下,将所述最大特征值对应的候选实体作为所述目标实体的实体链指结果。
可选地,所述候选特征包括类型特征,根据所述目标文本得到多个候选特征包括:
将所述目标文本输入语言表征模型,得到所述语言表征模型输出的所述目标实体在所述目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和所述目标实体在所述目标文本中的含义对应的第一含义向量;
将所述起始向量、所述结束向量和所述第一含义向量进行向量连接,得到第一向量;
将所述第一向量输入分类识别模型,得到所述目标实体对应的类型特征。
可选地,所述候选特征包括匹配特征,根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征包括:
将所述目标文本和所述候选文本输入语言表征模型,得到所述语言表征模型输出的所述目标实体在所述目标文本中的起始位置对应的起始向量、结束位置对应的结束向量和所述目标实体在所述目标文本中的含义对应的第二含义向量;
将所述起始向量、所述结束向量和所述第二含义向量进行向量连接,得到第二向量;
将所述第二向量输入匹配模型,得到所述目标实体和所述候选实体的匹配特征。
可选地,所述候选特征包括损失,根据所述目标文本和所述候选实体所在的候选文本,得到多个候选特征包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110043192.4/2.html,转载请声明来源钻瓜专利网。





