[发明专利]一种基于序列到序列架构的命名实体识别方法有效
申请号: | 202110608812.4 | 申请日: | 2021-06-01 |
公开(公告)号: | CN113221576B | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | 邱锡鹏;颜航 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 王伟珍 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 架构 命名 实体 识别 方法 | ||
本发明涉及识别技术领域,提供了一种基于序列到序列架构的命名实体识别方法,由于构件的命名实体识别模型包括编码器和解码器,解码器的输出为命名实体位置和文本标签,通过预设样本对命名实体识别模型进行训练后,将待测文本输入命名实体识别模型,得到识别结果序列,对命名实体识别模型输出的识别结果序列进行解码,得到多个命名实体以及每个命名实体所对应的文本标签,因此,本发明在不同场景的命名实体识别中不再需要针对不同命名实体设计不同的标签,能够使用完全一样的模型来解决不同场景的命名实体识别任务,设计简单,应用场景广泛。
技术领域
本发明涉及识别技术领域,具体涉及一种基于序列到序列架构的命名实体识别方法。
背景技术
命名实体识别任务是从给定文本中抓取特定类型文字片段的任务,如抽取文中的人物、地点、症状等。例如针对句子,“张三将于2021年就任某职务”,需要抽取出(张三,人物)、(2021年,时间)这两个元组,元组的第一个元素代表句子中的内容,元组的第二个元素代表该内容是什么类型的命名实体。
命名实体识别作为信息抽取技术的基础技术之一,被广泛应用于自然语言处理中的问答系统,对话系统以及翻译系统等。在最常见的命名实体任务中,不同的实体之间不存在交叉,并且同一实体一定是连续的文本片段。但在一些特定的应用场景下,实体之间会存在嵌套关系,例如“鲁迅纪念堂”这个短语中,至少包含了以下实体:(鲁迅,人物),(鲁迅纪念堂,地点),两个实体之间是嵌套关系。另外在医学领域的命名实体识别还可能存在非连续实体的情况,例如抽取病人症状的实体识别中,需要从“患者肌肉疼痛与酸痛”中抽取(肌肉疼痛,症状)以及(肌肉酸痛,症状)两种症状,其中“肌肉酸痛”在原句中并不是连续的文本片段。
目前,常见的命名实体识别一般是通过序列标注的方式来解决的,但是针对嵌套命名实体识别和非连续命名实体识别,采用序列标注的方式需要设计复杂的规范。而且这种通过序列标注来进行命名实体识别的方式非常局限,不同类型的命名实体识别必须采用不同的模型结构进行处理,适用范围狭窄。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种基于序列到序列架构的命名实体识别方法。
本发明提供了一种基于序列到序列架构的命名实体识别方法,具有这样的特征,包括如下步骤:步骤S1,构建命名实体识别模型;步骤S2,通过预设样本对所述命名实体识别模型进行训练,所述预设样本的实体序列是根据预定排序规则得到;步骤S3,将待测文本输入命名实体识别模型,得到识别结果序列;步骤S4,对所述命名实体识别模型输出的所述识别结果序列进行解码,得到多个命名实体以及每个命名实体所对应的文本标签,其中,命名实体识别模型包括编码器和解码器,解码器的输出为命名实体位置和文本标签,在训练的过程中,使解码器根据预设样本输出命名实体位置以及输出标签作为样本标签,根据命名实体位置从预设样本中获取对应的命名实体作为样本实体,并根据样本实体以及样本标签对解码器进行训练,命名实体序列由命名实体识别模型根据待测文本输出的命名实体位置和文本标签组成。
在本发明提供的基于序列到序列架构的命名实体识别方法中,还可以具有这样的特征:其中,编码器的输入为待识别文本,编码器的输出为词语的高维向量。
在本发明提供的基于序列到序列架构的命名实体识别方法中,还可以具有这样的特征:其中,解码器的输入为编码器的输出,解码器的输出为命名实体序列。
在本发明提供的基于序列到序列架构的命名实体识别方法中,还可以具有这样的特征:其中,在命名实体序列中,命名实体位置用于指示命名实体在待识别文本中命名实体的位置,文本标签为命名实体所对应的类别。
在本发明提供的基于序列到序列架构的命名实体识别方法中,还可以具有这样的特征:其中,预定排序规则为:根据命名实体位置将命名实体按照开始位置先后进行排序,并对开始位置相同的命名实体按命名实体对应的实体长度进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110608812.4/2.html,转载请声明来源钻瓜专利网。