[发明专利]一种基于RoBERTa和启发式算法的实体链接方法在审
申请号: | 201911393144.7 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111125380A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 苏锦钿;罗达;毛冠文 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 陈宏升 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 roberta 启发式 算法 实体 链接 方法 | ||
本发明公开的一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。本发明可以应用到各种知识库问答的场景当中,为许多应高级用提供底层基础服务。
技术领域
本发明涉及知识库问答类领域,特别涉及一种基于RoBERTa和启发式算法的实体链接方法。
背景技术
实体链接是知识库问答的一项子任务,旨在抽取问题中出现的知识库实体文本,并链接到知识库中的实体对象,从而得到知识库问答任务的候选答案。近年来,随着YAGO、Freebase、Dbpedia等大规模知识库的不断发展,知识库问答任务也开始为人们所关注,而如何在自然语言的问题与结构化的知识库实体之间建立联系,是一个亟需解决的问题,这也是实体链接任务的目标。
对于这个任务,早期的研究主要是用n-gram的方法对问题中的词组进行遍历,然后查询所有名字中包含这些词组的知识库实体作为候选实体,即与问题相关联的实体。该方法存在以下缺点:(1)问题中的n-gram单词组合较多,导致查询知识库耗时过多;(2)在候选实体中引入了过多不相关实体。而近几年来,随着深度学习的不断发展,很多学者开始利用深层神经网络来减少候选实体中的噪音,具体做法是先用一个序列标注模型对问题文本进行建模,以确定问题中提及到知识库实体的区域,从而减小了问题中n-gram搜索的范围。该方法的效果主要取决于序列标注模型的性能,目前效果较好的方案主要是基于Bi-LSTM或者Bi-LSTM+CRF的序列标注模型。这些模型基本上都是用了预训练word-embedding技术,能有效解决词典的高维稀疏问题,同时,将CRF应与神经网络相结合,能够从训练数据中学习到标注间的约束,从而提高对问题中实体提及区域的标注准确率。然而,问题的用词和表达方式是丰富的,word-embedding对不同问题中的相同单词只会产生同样的向量表示,而无法根据上下文动态地改变单词表示。比如,单词“苹果”可以表示水果“苹果”也可以表示“苹果公司”,如果应用word-embedding,则所有的“苹果”不论表示的是水果还是公司,都会被表示成同一个向量,出现这个问题的原因在于,模型在对单词建模的时候并没有考虑到上下文的信息,而单词“苹果”表示的是水果还是公司往往需要从上下文进行判断。当前大部分基于序列标注的实体链接模型都是在word-embedding基础上对问题进行建模的,这也在一定程度上限制了当前实体链接方法的性能。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于RoBERTa和启发式算法的实体链接方法,该方法应用在知识库问答当中。
本发明的目的通过以下的技术方案实现:
一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:
S1、使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;
S2、获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。
步骤S1中,所述序列标注模型,其输入是问题中的每个单词,输出是问题中每个单词是否提及到知识库实体的0/1分类;所述序列标注模型包括以下三层:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911393144.7/2.html,转载请声明来源钻瓜专利网。