[发明专利]命名实体识别模型训练方法、识别方法、装置及电子设备有效
| 申请号: | 201911010612.8 | 申请日: | 2019-10-23 |
| 公开(公告)号: | CN110781682B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 郑孙聪;周博通 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/084 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王花丽;张颖玲 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 命名 实体 识别 模型 训练 方法 装置 电子设备 | ||
本发明提供了一种命名实体识别模型训练方法、识别方法、装置、电子设备及存储介质;方法包括:获取多个文本句,并根据实体词典为各所述文本句中的各个字设置标注标签;根据多个所述文本句对命名实体识别模型的权重参数进行更新处理,并根据更新处理后得到的测试识别模型对各所述文本句进行预测处理,得到各所述文本句中各个字的预测标签;当所述文本句中的字对应的标注标签与预测标签不同时,为所述字设置歧义标签;根据多个所述文本句中未设置歧义标签的字,对所述命名实体识别模型进行更新处理。通过本发明,能够提升命名实体识别模型的训练效果。
技术领域
本发明涉及人工智能技术,尤其涉及一种命名实体识别模型训练方法、识别方法、装置、电子设备及存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP,Nature Language Processing)是人工智能中的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
命名实体识别是自然语言处理的一个分支,是指识别文本句中具有特定意义的实体,例如人名及地名等。在相关技术提供的方案中,通常是根据实体词典对数据进行标注,根据标注数据对命名实体识别模型进行训练,再使用训练后的命名实体识别模型实现对应的识别目的。而由于实体词典无法覆盖所有的命名实体,标注数据很可能不准确,导致进行模型训练的准确性低,得到的命名实体识别模型的识别效果差。
发明内容
本发明实施例提供一种命名实体识别模型训练方法、识别方法、装置、电子设备及存储介质,能够提升模型训练及根据模型进行命名实体识别的准确性。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种命名实体识别模型训练方法,包括:
获取多个文本句,并根据实体词典为各所述文本句中的各个字设置标注标签;
根据多个所述文本句对命名实体识别模型的权重参数进行更新处理,并根据更新处理后得到的测试识别模型对各所述文本句进行预测处理,得到各所述文本句中各个字的预测标签;
当所述文本句中的字对应的标注标签与预测标签不同时,为所述字设置歧义标签;
根据多个所述文本句中未设置歧义标签的字,对所述命名实体识别模型进行更新处理。
本发明实施例提供一种基于命名实体识别模型的识别方法,包括:
通过命名实体识别模型对文本句进行预测处理,得到所述文本句中各个字的预测标签;
将对应的预测标签是实体预测标签、且所述预测标签包括的实体位置是首位的字,确定为首位字;
在所述文本句中,从所述首位字开始向后进行遍历;
当遍历到的字对应的预测标签是实体预测标签、所述预测标签包括的实体位置是非首位、且所述预测标签包括的实体类型与所述首位字相同时,将遍历到的字确定为非首位字;
将所述首位字及对应的所述非首位字共同确定为命名实体。
本发明实施例提供一种命名实体识别模型训练装置,包括:
标注模块,用于获取多个文本句,并根据实体词典为各所述文本句中的各个字设置标注标签;
训练预测模块,用于根据多个所述文本句对命名实体识别模型的权重参数进行更新处理,并根据更新处理后得到的测试识别模型对各所述文本句进行预测处理,得到各所述文本句中各个字的预测标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911010612.8/2.html,转载请声明来源钻瓜专利网。





