[发明专利]一种基于注意力机制的文本识别方法有效
申请号: | 201811355154.7 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109543667B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 李宏伟;李蓉 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06T9/00;G06N3/0442;G06N3/0455;G06N3/048;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 文本 识别 方法 | ||
本发明公开了一种基于注意力机制的文本识别方法,基于空间注意力的网络SAN是一个端到端的文本识别模型,文本识别模型包括带有局部神经网络、残差神经网络和坐标信息的特征提取器以及基于注意力机制的空间解码器。文本识别模型基于编码解码结构,所以文本识别模型也可以理解为编码器和解码器。编码器是用于对输入的图像进行编码,得到解码器可以识别的编码特征序列。解码器用于解码编码器的编码特征,从而实现识别图像中的文本。针对于弧形文本CUTE80数据集,本方法的结果优于现有的所有方法,达到77.43%的准确率。在其他场景文本数据集中,本方法也得到了很好的效果。
技术领域
本发明基于空间注意的网络(SAN)来识别自然场景中的不规则文本,利用得到的空间信息作为编码器-解码器模型的输入来生成字符序列,尤其涉及一种基于注意力机制的文本识别方法,属于场景文本识别技术领域。
背景技术
在过去几年,场景文本识别任务得到了很多的关注,并且已经有一些解决办法。通常将文本识别分为两种类型:传统的单字符检测识别和序列文本识别。大部分传统的模型使用自底向上的机制,通过首先对单个检测的字符提取低级特征然后识别字符,最后通过一组先验知识把字符组合成字符串。这种识别方式在早期研究中一直存在。但是这种识别往往受限于检测字符的准确度。同时在一些复杂的场景下,是否能够准确的分割字符也成为了影响识别准确率的重要因素。上述这些因素的不确定性,就对识别的研究造成了许多的困扰。因此在后来的研究中,研究人员放弃了对单个字符的检测和分割任务,而是直接在文本图像上进行整个字符序列的识别。在现有的作为序列文本识别问题的研究中,研究员们通常使用整个文本图片,通过编码解码的模型把整个图片编码成一个特征序列,使用解码结构对序列特征进行解码,解码的结果再经过一个多分类器得到最终的字符序列。在这种端到端的序列到序列识别结构中,衍生出两种识别模式:基于连接时间分类器(CTC)的解码识别和基于注意力机制的解码识别。连接时间分类器源于语音识别的研究领域,在处理时序信息时,通常逐一对每个时间步的信息进行识别,筛选所有的结果路径后得到最终的识别结果。而注意力机制是在处理的过程中,通过一种全局的筛选,从一组特征中得到最具有表示能力的特征作为最终的表示进行识别。
通常,在一般的规则文本识别任务中,CTC和注意力机制在效果上差别并不大,但是注意力机制不仅可以作用于序列化特征,同时可以作用于空间中的2维特征,这就给带有空间位置信息的不规则文本识别的研究带来了许多思路。在不规则文本的识别任务中,通常会遇到字符扭曲、拍摄角度倾斜、模糊等问题。场景中的规则文本的排列序列主要是以自左向右的方向排列,而不规则文本的排列序列通常并不具有规律性。这样,传统的序列特征在不规则文本的识别任务中,并不能有很好的泛化能力。
在不规则文本的研究中,现有的方法主要分为两种:1、通过矫正不规则文本图像的方式,得到规则的文本图像,然后再进行序列化的识别;2、直接在2D特征图中进行识别。
在使用矫正的方法中,网络模型可以使用由空间变换网络(STN)得到的矫正后的规则图像,再送入识别网络中,进行识别。但是这种矫正模型在训练时通常非常复杂,需要许多训练技巧,这就给提高识别的准确率增加了许多难度。
另一种方法直接在2D特征图上,通过使用带有辅助检测任务的空间注意力机制,帮助定位文本特征。并且,在现有的不规则文本的识别任务中,基于空间注意机制的模型已经得到相对较好的识别结果。但是现有的模型仍然具有许多问题,其需要密集的辅助字符检测,且需要字符和词的包围盒注解,这就提高了模型的复杂度。还有的方法通过在2维的特征map中,使用LSTM的输出表示一个文本图像的4个方向的特征,同时使用一个全局分类器,对4个方向的特征进行选择,得到一个整合各个方向信息的特征向量。得到这个特征向量后,再使用基于注意力机制的序列解码器解码,得到文本序列。这种识别方法的训练难度比较大,需要复杂的模型设计以及更多的先验知识辅助训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811355154.7/2.html,转载请声明来源钻瓜专利网。