[发明专利]基于高斯约束注意力机制网络的场景文字识别方法及系统有效
| 申请号: | 202010767079.6 | 申请日: | 2020-08-03 |
| 公开(公告)号: | CN112070114B | 公开(公告)日: | 2023-05-16 |
| 发明(设计)人: | 王伟平;乔峙;秦绪功;周宇 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06V20/62 | 分类号: | G06V20/62;G06F40/30;G06V30/19;G06V10/82;G06V30/18;G06N3/0464;G06N3/0442 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 约束 注意力 机制 网络 场景 文字 识别 方法 系统 | ||
本发明提出一种基于高斯约束注意力机制网络的场景文字识别方法及系统,涉及图像信息识别领域,通过提取待识别图片的视觉特征,得到二维特征图;将二维特征图转化为一维特征序列,根据该一维特征序列提取全局语义信息;将全局语义信息输入至第一个时间步中初始化解码隐状态,并在每个时间步中根据隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;根据隐状态和原始加权特征向量构造二维高斯分布掩膜,将该掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量;将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符,从而能够解决注意力弥散的情况。
技术领域
本发明涉及图像信息识别领域,具体涉及一种基于高斯约束注意力机制网络的场景文字识别方法及系统。
背景技术
场景图像的文本检测与识别是近年来的研究热点,其中文字识别是整个流程的核心部分,其任务是将图片中的文字转录为计算机可以直接编辑的形式。随着深度学习的发展,这个领域得到了飞速的进步。受到机器翻译领域的启发,目前主流的方法都基于编码器解码器结构,编码器通过卷积神经网络和循环神经网络来提取丰富的视觉特征,解码器通过注意力机制来获取需要的特征按照文本序列的顺序预测出序列中的每个字符。
但现有技术存在以下缺陷:
1、文字识别在解码的每一个时间步只需要文本图片中每个字符的特定区域,现有的方法没有充分利用文本识别的这一特征。
2、现有的方法没有考虑约束注意力权重,而是让模型自由地去预测注意力的权重,在一部分图片中会出现一种注意力弥散的问题,即权重无法集中到特定字符上。
3、尽管有一部分现有的方法针对每个字符的位置使用高斯分布的标签来监督注意力权重,从而隐式地约束注意力权重。但由于没有引入一个显示约束的过程,在一些图片中依旧会出现注意力弥散的问题。
发明内容
本发明的目的在于提出一种基于高斯约束注意力机制网络的场景文字识别方法及系统,通过在计算注意力权重的过程中引入一个显示的约束,来矫正原始的注意力权重,使得矫正后的注意力权重会更加集中在对应字符的区域,从而能够解决注意力弥散的情况。
为实现上述目的,本发明采用以下技术方案:
一种基于高斯约束注意力机制网络的场景文字识别方法,包括以下步骤:
提取待识别图片的视觉特征,得到二维特征图;
将二维特征图转化为一维特征序列,根据该一维特征序列提取全局语义信息;
将全局语义信息输入至第一个时间步中初始化解码隐状态,并在每个时间步中根据隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;
根据隐状态和原始加权特征向量构造二维高斯分布掩膜,将该掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量;
将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符。
一种基于高斯约束注意力机制网络的场景文字识别系统,包括:
特征提取模块,包括一个多层残差网络,负责提取待识别图片的视觉特征,得到二维特征图;
编码器模块,包括一个单向双层长短时记忆网络LSTM,负责将二维特征图转化为一维特征序列,再输入到LSTM中提取全局语义信息;
解码器模块,包括一个基于注意力机制的单向双层长短时记忆网络AM-LSTM,负责基于全局语义信息更新第一个时间步的AM-LSTM的隐状态,并在每个时间步中根据AM-LSTM的隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010767079.6/2.html,转载请声明来源钻瓜专利网。





