[发明专利]一种嵌套命名实体识别模型的训练方法及装置在审
| 申请号: | 202110150250.3 | 申请日: | 2021-02-03 |
| 公开(公告)号: | CN112800768A | 公开(公告)日: | 2021-05-14 |
| 发明(设计)人: | 王得贤;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
| 地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 嵌套 命名 实体 识别 模型 训练 方法 装置 | ||
本申请提供一种嵌套命名实体识别模型的训练方法及装置,其中嵌套命名实体识别模型的训练方法包括:将训练样本语句输入编码器中进行编码,获得训练样本语句对应的第一训练编码向量;并将第一训练编码向量输入解码器包括的至少两个标注分支层进行解码,获得至少两个标注分支层输出的预测实体类型;针对至少两个标注分支层中的每一标注分支层,根据标注分支层输出的预测实体类型,计算标注分支层的第一损失值;根据至少两个标注分支层的第一损失值,确定嵌套命名实体识别模型的第二损失值;根据第二损失值调整嵌套命名实体识别模型的参数,继续训练嵌套命名实体识别模型,直至达到训练停止条件。
技术领域
本申请涉及计算机技术领域,特别涉及一种嵌套命名实体识别模型的训练方法及装置、嵌套命名实体识别方法及装置、计算设备和计算机可读存储介质。
背景技术
命名实体识别(NER)是指从输入文本中抽取出具有特定意义的或指代性强的实体,是自然语言处理中一个非常重要的任务,其在文本信息理解、知识问答、检索、图谱构建等诸多场景中有着广泛的应用。嵌套命名实体识别是命名实体识别的重要组成部分,嵌套命名实体识别是将属于多个实体类型的词语识别并标注,即一个词语可能属于多个实体类型。
现有技术中,嵌套命名实体识别的方法主要包括:(1)基于标注融合的方法:将可能共同出现的所有类别的实体类型(标注)两两组合,产生新的标注;(2)基于分层的方法:先通过一层NER识别细粒度实体类型,然后将该层识别出的实体类型作为一个实体,对该实体内的特征向量求平均后作为下一层NER的输入,识别粗粒度实体类型;(3)基于阅读理解的方法:重新构建数据,针对每个文本对各个实体类型(标注)构造问题,每个样本数据变为(问题,实体,文本)三元组。
然而,上述基于标注融合的方法,组合所有可能共同出现的实体类型,可能会造成标注数量指数级增长;上述基于分层的方法,下一层的输入依赖于上一层的识别结果,可能会造成错误传播,上一层的错误识别结果会导致下一层识别错误,且多层NER无法进行并行训练;上述基于阅读理解的方法,需要复杂的数据构建过程。
因此,如何提供更简便、更快速、更准确的嵌套命名实体识别方法,以识别嵌套命名实体就成为技术人员亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种嵌套命名实体识别模型的训练方法及装置、嵌套命名实体识别方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种嵌套命名实体识别模型的训练方法,所述嵌套命名实体识别模型包括编码器和解码器,所述解码器包括至少两个标注分支层;
所述嵌套命名实体识别模型的训练方法包括:
将训练样本语句输入所述编码器中进行编码,获得所述训练样本语句对应的第一训练编码向量;并将所述第一训练编码向量输入所述解码器包括的所述至少两个标注分支层进行解码,获得所述至少两个标注分支层输出的预测实体类型;
针对所述至少两个标注分支层中的每一所述标注分支层,根据所述标注分支层输出的预测实体类型,计算所述标注分支层的第一损失值;根据所述至少两个标注分支层的所述第一损失值,确定所述嵌套命名实体识别模型的第二损失值;
根据所述第二损失值调整所述嵌套命名实体识别模型的参数,继续训练所述嵌套命名实体识别模型,直至达到训练停止条件。
根据本申请实施例的第二方面,提供了一种嵌套命名实体识别方法,包括:
将待识别语句的字符序列输入嵌套命名实体识别模型的嵌入层做嵌入化处理,获得所述待识别语句的待识别语句向量,其中,所述嵌套命名实体识别模型是通过上述第一方面所述的训练方法训练得到的;
将所述待识别语句向量输入所述嵌套命名实体识别模型的编码器中进行编码处理,获得所述待识别语句的第一编码向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110150250.3/2.html,转载请声明来源钻瓜专利网。





