[发明专利]一种基于注意力机制的文字识别方法及系统在审
| 申请号: | 202010651107.8 | 申请日: | 2020-07-08 |
| 公开(公告)号: | CN111783705A | 公开(公告)日: | 2020-10-16 |
| 发明(设计)人: | 顾澄宇;王士林;陈凯;周异;何建华 | 申请(专利权)人: | 厦门商集网络科技有限责任公司;上海深杳智能科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04 |
| 代理公司: | 福州科扬专利事务所 35001 | 代理人: | 何小星 |
| 地址: | 361000 福建省厦*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 机制 文字 识别 方法 系统 | ||
本发明涉及一种基于注意力机制的文字识别方法及系统,涉及深度学习与图像处理技术。本发明采用以卷积神经网络和基于注意力机制的语言学模块作为深度学习模型的主干,用定制损失函数对特征图提取进行加强,引导模型在训练时学会区分前景和背景,引入正向和反向的双向解码器对文字进行双向解码。本发明抗干扰能力强,可以减轻注意力漂移,同时可以避免模型因为正向解码时首位字符难以辨认而导致最终识别失败。
技术领域
本发明涉及深度学习与图像处理技术,尤其涉及一种基于注意力机制的文字识别方法及系统。
背景技术
现有的文字识别技术有很多种,包括传统的OCR识别方法和基于深度学习的方法。基于深度学习的方法通过将大量人工标注的图像文字样本输入经过设计的神经网络,使得神经网络中的参数通过训练,拟合出图像与文字之间的映射关系,进而完成识别任务。深度学习的方法主要分为基于注意力机制的方法和基于CTC的方法。其中,深度学习中的注意力机制(https://blog.csdn.net/hpul fc/article/details/80448570)从本质上讲和人类的选择性视觉注意力机制类似,核心目标是从众多信息中选择出对当前任务目标更关键的信息。现有技术中,基于注意力机制的文字识别方法目前主要采用Transformer模型(https://blog.csdn.net/longxinchen_ml/article/details/86533005),此类方法有良好的可解释性,在复杂场景下具有更好的性能。
但是现有的基于注意力机制的深度学习模型具有两个缺陷:(1)由于注意力对特征图的关注区域有限,训练阶段没有得到关注的区域将在特征图中形成噪声区域。注意力模块产生的注意力容易被噪声区域干扰,无法很好的聚焦到文字所在区域,从而导致错误文字识别,即“注意力漂移”的问题;(2)待识别的文字经常具有较强的上下文关联性。现有技术中,仅采用正向识别解码,模型只能按照从前往后的顺序进行解码,使得先解码的字符往往缺乏上下文信息,当字符较难辨认时,先解码的字符容易出错。
发明内容
为了解决上述技术问题,本发明提供一种基于注意力机制的文字识别方法及其系统,通过在深度学习模型中,添加定制的损失函数对特征图提取进行加强,引入正向和反向的双向解码器对字符进行解码,使得模型的抗干扰力更强,减轻注意力偏移,字符解码的准确性更高。
本发明的技术方案一:
一种基于注意力机制的文字识别方法,包括如下步骤:
S1:构建文字识别模型,用于识别图像中的文字;所述文字识别模型由以下模块组成:
卷积神经网络,用于提取输入图像的特征图;
注意力机制模块,包括序列编码器、正向序列解码器和反向序列解码器,用于对所述特征图进行编码和解码处理,输出预测字符的特征向量;
字符解码层,用于将所述预测字符的特征向量编译为文字识别结果,同时将所述特征图编译为特征图字符概率向量;
S2:构建训练样本集,所述训练样本集包括训练图像和与所述训练图像对应的图像标注,其中,所述图像标注为所述训练图像所表示的真实文字信息;
S3:将训练样本集输入所述文字识别模型进行训练,训练使用的损失函数由所述正向序列解码器的交叉熵损失函数,所述反向序列解码器的交叉熵损失函数和特征图字符概率的损失函数三者进行加权求和得到,其中特征图字符概率的损失函数用于对所述特征图字符概率向量进行监督;
S4:将待识别的文字图像输入所述S3步骤中获得的训练后的文字识别模型中进行识别,在经过字符解码层以及softmax函数对所述文字识别结果概率归一化后,选取双向解码中置信度较高的分支作为预测结果。
所述S1步骤中,所述序列编码器接收所述特征图,获取图像全局信息并输出编码信息,所述全局信息为所述特征图中每一个像素点的特征信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司;上海深杳智能科技有限公司,未经厦门商集网络科技有限责任公司;上海深杳智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010651107.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:柔性覆铜板制造方法及设备
- 下一篇:一种便于携带的乒乓球桌





