[发明专利]基于语义模型的训练方法、装置以及电子设备在审

申请号：	201911385958.6	申请日：	2019-12-27
公开（公告）号：	CN111079445A	公开（公告）日：	2020-04-28
发明（设计）人：	陈喜旺;黄柯	申请（专利权）人：	南京三百云信息科技有限公司
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/247;G06Q50/00
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	张萌
地址：	210000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于语义模型训练方法装置以及电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种基于语义模型的训练方法、装置以及电子设备，涉及模型训练技术领域，解决目前语义识别模型的识别结果准确率较低的技术问题。方法包括：基于标注的训练样本集对语义标注模型进行训练，得到训练后的语义标注模型；基于语义标注模型重复执行下述步骤，直至识别模型的识别结果满足预设条件，输出训练后的识别模型：基于语义标注模型对未标注文本集中的每个文本进行识别，得到每个文本的初步标签；基于关键词集合以及判定逻辑，对每个文本的初步标签进行判断得到每个文本的最终标签；基于每个文本的最终标签对训练后的语义标注模型进行训练，以及对中间判定逻辑和中间关键词集合进行优化；确定识别模型的识别结果是否满足预设条件。

技术领域

本申请涉及模型训练技术领域，尤其是涉及一种基于语义模型的训练方法、装置以及电子设备。

背景技术

目前，语义识别模型的种类有很多种，例如，自然语言处理(Natural LanguageProcessing，NLP)模型、双向编码器(Bidirectional Encoder Representations fromTransformers，BERT)等。

但是，无论基于何种模型进行语义识别，都很容易造成各种歧义，出现错误识别的现象。例如，“张哥”、“王姐”等识别成亲戚哥哥、姐姐，父亲与某人的父亲之间的歧义，等等，导致最终识别结果存在大量的误判，使目前语义识别模型的识别结果准确率较低。

发明内容

本发明的目的在于提供一种基于语义模型的训练方法、装置以及电子设备，以解决目前语义识别模型的识别结果准确率较低的技术问题。

第一方面，本申请实施例提供了一种基于语义模型的训练方法，预先确定标注的训练样本集、未标注文本集以及识别模型，所述识别模型包括语义标注模型、判定逻辑以及关键词集合，所述关键词集合中的关键词为基于所述标注的训练样本集确定的具有歧义的词；所述方法包括：

基于所述标注的训练样本集对所述语义标注模型进行训练，得到训练后的语义标注模型；基于所述语义标注模型重复执行下述步骤，直至所述识别模型的识别结果满足预设条件，输出为训练后的识别模型：

基于所述语义标注模型对所述未标注文本集中的每个文本进行识别，得到每个所述文本的初步标签；

基于所述关键词集合以及所述判定逻辑，对每个所述文本的初步标签进行判断，得到每个所述文本的最终标签；

基于每个所述文本的最终标签对所述训练后的语义标注模型进行训练，以及对中间判定逻辑和中间关键词集合进行优化；