[发明专利]命名实体识别模型训练方法、识别方法、装置及电子设备有效

申请号：	201911010612.8	申请日：	2019-10-23
公开（公告）号：	CN110781682B	公开（公告）日：	2023-04-07
发明（设计）人：	郑孙聪;周博通	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06N3/084
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	王花丽;张颖玲
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	命名实体识别模型训练方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种命名实体识别模型训练方法、识别方法、装置、电子设备及存储介质；方法包括：获取多个文本句，并根据实体词典为各所述文本句中的各个字设置标注标签；根据多个所述文本句对命名实体识别模型的权重参数进行更新处理，并根据更新处理后得到的测试识别模型对各所述文本句进行预测处理，得到各所述文本句中各个字的预测标签；当所述文本句中的字对应的标注标签与预测标签不同时，为所述字设置歧义标签；根据多个所述文本句中未设置歧义标签的字，对所述命名实体识别模型进行更新处理。通过本发明，能够提升命名实体识别模型的训练效果。

技术领域

本发明涉及人工智能技术，尤其涉及一种命名实体识别模型训练方法、识别方法、装置、电子设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP，Nature Language Processing)是人工智能中的一个重要方向，主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

命名实体识别是自然语言处理的一个分支，是指识别文本句中具有特定意义的实体，例如人名及地名等。在相关技术提供的方案中，通常是根据实体词典对数据进行标注，根据标注数据对命名实体识别模型进行训练，再使用训练后的命名实体识别模型实现对应的识别目的。而由于实体词典无法覆盖所有的命名实体，标注数据很可能不准确，导致进行模型训练的准确性低，得到的命名实体识别模型的识别效果差。

发明内容

本发明实施例提供一种命名实体识别模型训练方法、识别方法、装置、电子设备及存储介质，能够提升模型训练及根据模型进行命名实体识别的准确性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种命名实体识别模型训练方法，包括：

获取多个文本句，并根据实体词典为各所述文本句中的各个字设置标注标签；

根据多个所述文本句对命名实体识别模型的权重参数进行更新处理，并根据更新处理后得到的测试识别模型对各所述文本句进行预测处理，得到各所述文本句中各个字的预测标签；

当所述文本句中的字对应的标注标签与预测标签不同时，为所述字设置歧义标签；

根据多个所述文本句中未设置歧义标签的字，对所述命名实体识别模型进行更新处理。

本发明实施例提供一种基于命名实体识别模型的识别方法，包括：

通过命名实体识别模型对文本句进行预测处理，得到所述文本句中各个字的预测标签；

将对应的预测标签是实体预测标签、且所述预测标签包括的实体位置是首位的字，确定为首位字；

在所述文本句中，从所述首位字开始向后进行遍历；