[发明专利]基于标签引导的字词融合的命名实体识别方法在审

专利信息
申请号: 202110027765.4 申请日: 2021-01-08
公开(公告)号: CN112699685A 公开(公告)日: 2021-04-23
发明(设计)人: 胡永利;于腾;孙艳丰;王博岳;尹宝才 申请(专利权)人: 北京工业大学
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06N3/04;G06N3/08
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 标签 引导 字词 融合 命名 实体 识别 方法
【说明书】:

发明涉及一种基于标签引导的字词融合的命名实体识别方法,用于解决以往分词工具不准确造成的分词错误的问题。具体采用标注信息对句子的分词结果进行分组,并对组内信息进行融合,能够有效的获得这个位置词的信息;将位置词信息与当前字的信息进行融合,增强位置词的信息表达;采用注意力机制,对每个位置词进行分配权重,使其更加关注正确的词的标签;采用Gated Mechanism来动态的权衡字特征与位置词向量特征的比重,最后通过BiLSTM与CRF找到最优序列。本发明改善了词边界识别错误的问题,并能够减少未登陆词(OOV)的产生。

技术领域

本发明属于自然语言处理领域,特别涉及命名实体识别技术和文本挖掘技术。

背景技术

命名实体识别(Named Entity Recognition,NER)旨在识别出非结构化文本序列中具有特殊含义的实体,并为这些实体分配相应的类别,比如人名、地名、组织机构名等等。由于命名实体识别在对话生成、关系抽取、知识图谱、共指消解等任务中起着基础支撑作用,因此命名实体识别在自然语言处理(Natural Language Processing,NLP)领域得到了广泛的研究。

对于命名实体识别任务,常用的方法是把它作为有监督的序列标注问题来求解。一般来说,监督数据越多,模型训练的效果就越好。但由于代价高,无法获得大规模的标注数据。因此,人工设计特征和特定领域内的语言资源被研究者广泛的运用于NER任务中。在新语言和新领域下开发特定的语言资源和特征的代价很大,这使得命名实体识别的研究也更具有挑战性。

近年来,随着计算机算力的提升和算法技术的发展,基于深度学习的模型在命名实体识别领域中得到了更加广泛的应用。2003年Hammerton提出了LSTM模型,首次将神经网络引入NER任务中来。Lample在2016年提出了BiLSTM-CRF的模型,并取得了较好的性能。但是由于中文不同于英文,上述NER模型应用于中文存在一些问题。中文是一种符号语言,其字与字之间蕴含了丰富的语义信息。现有的高性能命名实体识别系统主要是针对英文设计的,英文拥有明确的分割标识,首字母大写、词与词之间用空格分割的特性决定了英文的信息提取比较简单。但是中文不存在明显的单词边界,无法充分利用词的信息,因此现有的NER系统大多都是基于字符操作,然后对序列进行标记,一些科研人员决定将词的信息也融入进去,首先采用分词技术对句子进行分词处理,然后同样采用英文的方式进行模型的训练。这种方式虽然利用了词的信息,但是经研究发现,中文分词系统不可避免地会产生一些错误的分词,进而影响NER系统识别效果。在国内每天都会有新词的产生,虽然使用分词技术,但是对于新词的产生问题无法解决。

发明内容

为了解决现有方法不适用于中文实体识别,识别率低的问题,本发明提出了一种基于标签引导的字词融合的命名实体识别方法。该方法首次利用标注信息对句子的分词结果进行分组,得到当前字所在词中的具体位置信息,将其定义为位置词。将位置词信息与字信息进行交互,用来学习标签引导的词信息与字的信息融合结果;其次,我们在信息融合之后结合了注意力机制,学习字在不同位置词下的关注程度,使其对正确标注结果关注度较高;最后,通过使用Gated Mechanism来进行合并操作,能够动态的权衡和决定词向量所占的比重。该方法的提出,主要解决的问题是分词工具分词结果不准确,大量未登陆词(OOV)的产生。

本发明的贡献是通过增加位置词信息实现了语义扩充,能够减少分词不准确的现象。此模型中创新点有两点:一、利用了BIE标注法对通过分词得到的结果进行分组,通过查找表查找每个组内词的向量表示,这些词向量中即包含了词的信息又包含了标注信息。将分组后的结果再与字向量融合,能够得到当前字中所包含的语义扩充信息。二、通过门控单元来控制字向量与位置词向量对模型的影响程度。具体如步骤二和步骤三所示。具体技术内容如下:

步骤一:通过BERT模型对待识别的句子进行预训练,得到句中每个字的特征向量:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110027765.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top