[发明专利]基于多任务的模型训练方法、字符识别方法及装置在审
申请号: | 202010151852.6 | 申请日: | 2020-03-06 |
公开(公告)号: | CN111401374A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 吴红;欧阳潘义;向钊豫 | 申请(专利权)人: | 湖南快乐阳光互动娱乐传媒有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张静 |
地址: | 410003 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 任务 模型 训练 方法 字符 识别 装置 | ||
本发明实施例公开了一种字符模型的训练方法,包括:获取训练样本;所述训练样本为包含字符的图片;对训练样本进行预处理;采用编码器提取训练样本中字符的特征;将提取到的训练样本的字符特征分别输入到CTC模型和注意力模型中进行解码操作,并获取CT模型的损失以及注意力模型的损失;基于CT模型的损失以及注意力模型的损失,计算联合损失;基于联合损失对编码器、CTC模型和注意力模型进行训练。这样,结合CTC模型的优势和注意力模型的优势对字符识别模型进行训练,由此不仅可以缩短字符识别模型的训练时间,并且可以得到识别结果更加准确的字符识别模型。
技术领域
本发明涉及计算机技术领域,尤其涉及基于多任务的模型训练方法、字符识别方法及装置。
背景技术
当前,在很多场景下得到的图片都包含字符,例如车牌、从视频中获取到的包含弹幕或者字幕的图片、包含特殊信息的图片等。OCR识别技术的发展,使得从图片中识别出字符变成了可能。
现有技术中,通常采用统计模式识别、结构模式识别和神经网络识别的方法,其中统计模式识别统计字符的整体规律并将统计信息作为字符特征,输入到分类网络中通过判决函数识别,该法对外部条件的鲁棒性不强且计算量过大;结构模式识别方法鲁棒性差且算法复杂而无实用性;神经网络作为一种机器学习的方法,需要经过充足的训练和参数调整后得到的,相对于前两种方式神经网络可以具备很好地泛化能力和正确率。
但是,当前对于神经网络的训练,通常会出现训练费时或者准确度不高的问题。
发明内容
有鉴于此,本发明公开了一种字符识别模型的训练方法、字符识别方法,通过CTC模型和注意力模型作为字符识别模型的解码器,同时执行解码任务,这样提高训练效率、缩短训练时间,并且得到准确率更高的字符识别模型。
本发明实施例公开了一种字符识别模型的训练方法,包括:
获取训练样本;所述训练样本为包含字符的图片;
对所述训练样本进行预处理;
采用编码器提取训练样本中字符的特征;
将提取到的训练样本的字符特征分别输入到CTC神经网络的时序分类模型和注意力模型中进行解码操作,并获取CTC神经网络的时序类分类模型的损失以及注意力模型的损失;
基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失;
基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练。
可选的,所述预设的编码器包括:深度卷积神经网络模型和双向长短记忆网络模型;
所述采用预设的编码器提取训练样本中字符的特征信息,包括:
采用卷积神经网络模型提取所述训练样本中第一特征;
将所述第一特征信息输入到双向长短记忆网络模型中,提取第二特征;所述第二特征为保证各字符之间关联关系的特征。
可选的,所述基于CTC神经网络的时序分类模型的损失以及注意力模型的损失,计算联合损失,包括:
获取CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重;基于CTC神经网络的时序分类模型的损失以及注意力模型的损失的权重,计算CTC神经网络的时序分类模型的损失以及注意力模型的损失的加权和。
可选的,所述基于联合损失对编码器、CTC神经网络的时序分类模型和注意力模型进行训练,包括:
应用梯度下降方法回传联合损失更新编码器各层的参数;
应用梯度下降方法回传联合损失更新CTC神经网络的时序分类模型各层的参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南快乐阳光互动娱乐传媒有限公司,未经湖南快乐阳光互动娱乐传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010151852.6/2.html,转载请声明来源钻瓜专利网。