[发明专利]一种基于RoBERTa和启发式算法的实体链接方法在审

专利信息
申请号: 201911393144.7 申请日: 2019-12-30
公开(公告)号: CN111125380A 公开(公告)日: 2020-05-08
发明(设计)人: 苏锦钿;罗达;毛冠文 申请(专利权)人: 华南理工大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/295
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 陈宏升
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 roberta 启发式 算法 实体 链接 方法
【说明书】:

发明公开的一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。本发明可以应用到各种知识库问答的场景当中,为许多应高级用提供底层基础服务。

技术领域

本发明涉及知识库问答类领域,特别涉及一种基于RoBERTa和启发式算法的实体链接方法。

背景技术

实体链接是知识库问答的一项子任务,旨在抽取问题中出现的知识库实体文本,并链接到知识库中的实体对象,从而得到知识库问答任务的候选答案。近年来,随着YAGO、Freebase、Dbpedia等大规模知识库的不断发展,知识库问答任务也开始为人们所关注,而如何在自然语言的问题与结构化的知识库实体之间建立联系,是一个亟需解决的问题,这也是实体链接任务的目标。

对于这个任务,早期的研究主要是用n-gram的方法对问题中的词组进行遍历,然后查询所有名字中包含这些词组的知识库实体作为候选实体,即与问题相关联的实体。该方法存在以下缺点:(1)问题中的n-gram单词组合较多,导致查询知识库耗时过多;(2)在候选实体中引入了过多不相关实体。而近几年来,随着深度学习的不断发展,很多学者开始利用深层神经网络来减少候选实体中的噪音,具体做法是先用一个序列标注模型对问题文本进行建模,以确定问题中提及到知识库实体的区域,从而减小了问题中n-gram搜索的范围。该方法的效果主要取决于序列标注模型的性能,目前效果较好的方案主要是基于Bi-LSTM或者Bi-LSTM+CRF的序列标注模型。这些模型基本上都是用了预训练word-embedding技术,能有效解决词典的高维稀疏问题,同时,将CRF应与神经网络相结合,能够从训练数据中学习到标注间的约束,从而提高对问题中实体提及区域的标注准确率。然而,问题的用词和表达方式是丰富的,word-embedding对不同问题中的相同单词只会产生同样的向量表示,而无法根据上下文动态地改变单词表示。比如,单词“苹果”可以表示水果“苹果”也可以表示“苹果公司”,如果应用word-embedding,则所有的“苹果”不论表示的是水果还是公司,都会被表示成同一个向量,出现这个问题的原因在于,模型在对单词建模的时候并没有考虑到上下文的信息,而单词“苹果”表示的是水果还是公司往往需要从上下文进行判断。当前大部分基于序列标注的实体链接模型都是在word-embedding基础上对问题进行建模的,这也在一定程度上限制了当前实体链接方法的性能。

发明内容

本发明的目的在于克服现有技术的缺点与不足,提供一种基于RoBERTa和启发式算法的实体链接方法,该方法应用在知识库问答当中。

本发明的目的通过以下的技术方案实现:

一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:

S1、使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;

S2、获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。

步骤S1中,所述序列标注模型,其输入是问题中的每个单词,输出是问题中每个单词是否提及到知识库实体的0/1分类;所述序列标注模型包括以下三层:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911393144.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top