[发明专利]基于全局特征指导的二维注意力机制文本识别方法在审
申请号: | 202011239148.2 | 申请日: | 2020-11-09 |
公开(公告)号: | CN112149644A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 王鹏;杨路 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 刘新琼 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 全局 特征 指导 二维 注意力 机制 文本 识别 方法 | ||
本发明涉及一种基于全局特征指导的二维注意力机制的文本识别方法,属于图像识别中的文本识别领域。首先使用一个卷积神经网络对输入图片提取特征图,将这个特征图经过两路分支进行处理,一路使用1x1的卷积对特征图进行维度变换,另一路使用一个小的网络从特征图中提取出全局的特征表示。这两路提取出来特征都用作后续解码器的输入。在解码时先输入开始符号,然后将开始符号的特征加上位置编码的特征,然后再和全局特征拼接在一起。解码器根据这个拼接特征,通过二维注意力机制在特征图上去寻找需要识别的第一个文字并识别出答案。有了第一个文字,再把第一个文字和全局特征拼接在一起,去识别第二个文字。一直到解码器识别出文字结束符时停止识别。
技术领域
本发明属图像识别中的文本识别领域,具体为通过直接在卷积神经网络提取的特征上,使用全局特征指导的二维注意力机制对每个字符进行提取特征并进行识别的文本识别方法及系统。
背景技术
文本识别是图像处理中非常重要的一个技术。常见的有两种应用场景,一种是对扫描文档进行图像处理,一种是对自然场景图片中的文字进行识别。对于扫描文档图像而言,文字信息图像中最重要的信息,这些信息如果以图像的格式进行存储是非常浪费存储空间的,如果能够通过文本识别方法将文档图像中的问题识别出来,以文本的形式存储起来,那么将非常的有意义,而且识别出来的文本还能够方便后续的算法进行更进一步的分析处理。自然场景的图片中经常会有文字的出现,而一旦图像中有文字时,文字往往能够提供丰富的信息。比如一个店的招牌上的文字,如果读懂招牌上的文字大概就能猜出这家店是干什么的;一个瓶子上面的文字,一看文字就大概知道这瓶子里装的是什么东西。因此,图像识别中的文本识别是非常重要的一种技术,如何又快又准的进行图像文本识别是学术界和工业界都非常关注的。
早期的文本识别采用的是自下而上的方式,它首先检测单个字符并通过动态规划将其整合成一个单词,或者采用自顶向下的方式,它将单词作为一个整体来识别。考虑到文本通常以字符序列的形式出现,也有些方法将其建模为序列识别问题。RNN通常被用来进行序列特征学习。文本识别的方法大多是由上述框架驱动的,但在处理不规则文本的变形或曲率时,还需要做一些改进。有方法通过空间变换网络将不规则文本图像纠正为规则文本图像,然后用一维的注意力顺序模型识别他们。也有通过一个校正网络迭代地消除透视畸变和文本曲线,从而得到文本识别的前向平行视图。
现有方法利用RNN从四个方向捕捉不规则文本图像的深层特征,然后通过一维基于注意力的解码器组合生成字符序列。并设计一个滤波门,将冗余特征融合,去除不相关特征。最新的方法中有人认为用一维序列来表示不规则文本图像是不合适的,并提出了一种字符注意全卷积网络,在二维视角下准确地检测每个字符。然后用一种单独的基于切分的方法来实现,但是此模型不能进行端到端的训练。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于全局特征指导的二维注意力机制的文本识别方法。
技术方案
一种基于全局特征指导的二维注意力机制文本识别方法,其特征在于步骤如下:
步骤1:将输入图片尺寸调整到48×160×3大小;
步骤2:将调整后的图片输入到定制版的ResNet34网络,去掉ResNet34网络最后的两层即平均池化层和全连接层,得到网络输出的原始特征图,原始特征图大小为6×20×512;所述的定制版的ResNet34是针对文字识别任务特殊改造的:将第一层卷积从7x7的卷积核修改为3x3的卷积核,将所有的2x2的最大池化层都修改为2x1的最大池化层;
步骤3:对步骤2得到的原始特征图进行1x1卷积,进行通道的改变,特征图大小变为6×20×1024;此特征图代表了整张图片的文字内容信息,所有的文字的信息分布在这个特征图的不同位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011239148.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页面导航方法、装置和智能设备
- 下一篇:一种数学教学用专业课程展示装置