[发明专利]网络模型的训练、文字识别方法、装置和电子设备在审

专利信息
申请号: 202010330213.6 申请日: 2020-04-23
公开(公告)号: CN111667066A 公开(公告)日: 2020-09-15
发明(设计)人: 张婕蕾;万昭祎;姚聪 申请(专利权)人: 北京旷视科技有限公司
主分类号: G06N3/08 分类号: G06N3/08;G06N3/04;G06K9/62;G06F17/18;G06F40/279;G06K9/00
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 何少岩
地址: 100080 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网络 模型 训练 文字 识别 方法 装置 电子设备
【说明书】:

发明提供了一种网络模型的训练、文字识别方法、装置和电子设备,涉及人工智能技术领域,包括获取多个待训练模型和多个待训练模型的目标训练样本;通过每个待训练模型对目标训练样本分别进行文字识别处理,得到多个文字识别结果,其中,每个文字识别结果表示目标训练样本中每个待识别字符为各个预设字符的预测概率;基于多个文字识别结果和目标训练样本的标签信息确定每个待训练模型的相对熵损失值;其中,相对熵损失值用于表征多个文字识别结果之间的差异程度;通过相对熵损失值调整相对应待训练模型的模型参数,本申请缓解了现有的文字识别模型在进行文字识别的过程中,识别精度差的技术问题。

技术领域

本发明涉及人工智能技术领域,尤其是涉及一种网络模型的训练、文字识别方法、装置和电子设备。

背景技术

在工作过程中,人们经常需要对图片中的文字进行处理,由于图片中的文字不能编辑,因此需要先对该图片进行文字识别。在现有技术中,可以通常采用光学字符识别(optical character recognition,OCR)模型识别图片中的文字。但是该模型识别出的文字的准确率较低,随着人工智能技术的发展,目前可以采用深度学习算法对文字进行识别。在深度学习领域,文字识别方法有很多中,例如,可以为以下几种:第一种为基于注意力机制的文字解码器attention-decoder;第二种为基于CTC-Loss(Connectionist TemporalClassification,联通性暂存识别器的文字识别模型)的模型;第三种为图像分割网络segmentation。

在上述模型的使用过程中发现,基于注意力机制的文字解码器attention-decoder在语言模型的序列建模能力较强,也即,注意力机制的文字解码器attention-decoder背单词的能力较强,而基于图像分割网络segmentation侧重于图像特征的处理。但是,针对一个模型来说,如果依赖于序列建模能力,那么将使得该模型无法识别训练集中没有出现过的文字。如果侧重图像特征,那么在图像质量欠佳的情况下,识别精度会大幅下降。

发明内容

有鉴于此,本发明的目的在于提供一种网络模型的训练、文字识别方法、装置和电子设备,以缓解了现有的文字识别模型在进行文字识别的过程中,识别精度差的技术问题。

第一方面,本发明实施例提供了一种网络模型的训练方法,包括:获取多个待训练模型和所述多个待训练模型的目标训练样本;通过每个待训练模型对所述目标训练样本分别进行文字识别处理,得到多个文字识别结果,其中,每个文字识别结果表示目标训练样本中每个待识别字符为各个预设字符的预测概率;基于所述多个文字识别结果和所述目标训练样本的标签信息确定每个待训练模型的相对熵损失值;其中,所述相对熵损失值用于表征多个文字识别结果之间的差异程度;通过所述相对熵损失值调整相对应待训练模型的模型参数。

进一步地,基于所述多个文字识别结果和所述目标训练样本的标签信息确定每个待训练模型的相对熵损失值包括:在所述多个文字识别结果中确定第一待训练模型的文字识别结果和第二待训练模型的文字识别结果,分别得到第一文字识别结果和第二文字识别结果,其中,所述第一待训练模型为当前时刻所述多个待训练模型中待计算相对熵损失值的模型,所述第二待训练模型为所述多个待训练模型中除所述第一待训练模型之外的其他模型;计算所述第一文字识别结果和所述第二文字识别结果之间的KL散度,得到目标KL散度值;基于所述目标KL散度值、所述第一文字识别结果和所述目标训练样本的标签信息确定所述第一待训练模型的相对熵损失值。

进一步地,所述第二待训练模型的数量为多个;每个第二待训练模型对应一个第二文字识别结果;计算所述第一文字识别结果和所述第二文字识别结果之间的KL散度包括:计算所述第一文字识别结果和每个第二文字识别结果之间的KL散度,得到多个目标KL散度值;基于所述目标KL散度值、所述第一文字识别结果和所述目标训练样本的标签信息确定所述第一待训练模型的相对熵损失值包括:基于所述多个目标KL散度值、所述第一文字识别结果和所述目标训练样本的标签信息确定所述第一待训练模型的相对熵损失值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司,未经北京旷视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010330213.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top