[发明专利]命名实体识别模型训练方法、识别方法、装置及电子设备有效
| 申请号: | 201911010612.8 | 申请日: | 2019-10-23 |
| 公开(公告)号: | CN110781682B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 郑孙聪;周博通 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/084 |
| 代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王花丽;张颖玲 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 命名 实体 识别 模型 训练 方法 装置 电子设备 | ||
1.一种命名实体识别模型训练方法,其特征在于,包括:
获取多个文本句,并根据实体词典为各所述文本句中的各个字设置标注标签;
根据多个所述文本句对命名实体识别模型的权重参数进行更新处理,并根据更新处理后得到的测试识别模型对各所述文本句进行预测处理,得到各所述文本句中各个字的预测标签;
当所述文本句中的字对应的标注标签与预测标签不同时,为所述字设置歧义标签;
将多个所述文本句分别添加至训练集和测试集;其中,所述训练集包括的所述文本句的数量大于所述测试集;
通过所述命名实体识别模型对所述训练集中的所述文本句进行预测处理,得到所述文本句中各个字的预测标签;
确定未设置歧义标签的字对应的标注标签与预测标签之间的差异;
根据所述差异在所述命名实体识别模型中进行反向传播,并在反向传播的过程中更新所述命名实体识别模型的权重参数,直至对所述训练集中的所有所述文本句遍历完成;
根据所述测试集,确定更新后的所述命名实体识别模型的识别有效率;
当所述识别有效率未超过有效率阈值时,根据更新后的所述命名实体识别模型再次对所述训练集进行预测处理,直至所述识别有效率超过所述有效率阈值。
2.根据权利要求1所述的命名实体识别模型训练方法,其特征在于,所述根据多个所述文本句对命名实体识别模型的权重参数进行更新处理,并根据更新处理后得到的测试识别模型对各所述文本句进行预测处理,得到各所述文本句中各个字的预测标签,包括:
将多个所述文本句平均添加至N份句集;其中,所述N为大于1的整数;
轮流根据N-1份所述句集对命名实体识别模型的权重参数进行更新处理,并根据更新处理后得到的测试识别模型,对剩余的1份所述句集进行预测处理,直至得到各所述句集包括的各个字的预测标签。
3.根据权利要求2所述的命名实体识别模型训练方法,其特征在于,所述根据N-1份所述句集对命名实体识别模型的权重参数进行更新处理,包括:
通过命名实体识别模型对N-1份所述句集包括的文本句进行预测处理,得到所述文本句包括的各个字的临时预测标签;
确定各个字对应的标注标签与临时预测标签之间的差异;
根据所述差异在所述命名实体识别模型中进行反向传播,并在反向传播的过程中更新所述命名实体识别模型的权重参数,直至对N-1份所述句集包括的所有文本句遍历完成,得到测试识别模型。
4.根据权利要求1所述的命名实体识别模型训练方法,其特征在于,所述根据实体词典为各所述文本句中的各个字设置标注标签,包括:
根据实体词典对各所述文本句进行匹配处理,确定各所述文本句中匹配成功的命名实体;
为所述命名实体包括的字设置实体标注标签;其中,所述实体标注标签包括对应的字的实体位置和实体类型;
为所述文本句中所述命名实体之外的字设置非实体标注标签。
5.根据权利要求4所述的命名实体识别模型训练方法,其特征在于,所述当所述文本句中的字对应的标注标签与预测标签不同时,为所述字设置歧义标签,包括:
当所述文本句中的字对应的标注标签是所述非实体标注标签、且对应的预测标签是实体预测标签时,为所述字设置歧义标签;
其中,所述实体预测标签包括所述字的实体位置和实体类型。
6.一种基于权利要求1至5任一项所述的命名实体识别模型的识别方法,其特征在于,包括:
通过命名实体识别模型对文本句进行预测处理,得到所述文本句中各个字的预测标签;
将对应的预测标签是实体预测标签、且所述预测标签包括的实体位置是首位的字,确定为首位字;
在所述文本句中,从所述首位字开始向后进行遍历;
当遍历到的字对应的预测标签是实体预测标签、所述预测标签包括的实体位置是非首位、且所述预测标签包括的实体类型与所述首位字相同时,将遍历到的字确定为非首位字;
将所述首位字及对应的所述非首位字共同确定为命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911010612.8/1.html,转载请声明来源钻瓜专利网。





