[发明专利]基于高斯约束注意力机制网络的场景文字识别方法及系统有效
| 申请号: | 202010767079.6 | 申请日: | 2020-08-03 |
| 公开(公告)号: | CN112070114B | 公开(公告)日: | 2023-05-16 |
| 发明(设计)人: | 王伟平;乔峙;秦绪功;周宇 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06V20/62 | 分类号: | G06V20/62;G06F40/30;G06V30/19;G06V10/82;G06V30/18;G06N3/0464;G06N3/0442 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 约束 注意力 机制 网络 场景 文字 识别 方法 系统 | ||
1.一种基于高斯约束注意力机制网络的场景文字识别方法,其特征在于,包括以下步骤:
提取待识别图片的视觉特征,得到二维特征图;
将二维特征图转化为一维特征序列,根据该一维特征序列提取全局语义信息;
将全局语义信息输入至第一个时间步中初始化解码隐状态,并在每个时间步中根据隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;
在每一个解码时间步,将对应时间步的隐状态和原始加权特征向量拼接后经过一个全连接层预测一组高斯分布的参数,该参数包括均值和方差,并利用所述参数构造一个二维的高斯分布作为掩膜,最后将掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量;
将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符。
2.如权利要求1所述的方法,其特征在于,从第二个时间步开始,每个时间步输入上一个时间步的解码结果来更新隐状态。
3.一种基于高斯约束注意力机制网络的场景文字识别系统,其特征在于,包括:
特征提取模块,包括一个多层残差网络,负责提取待识别图片的视觉特征,得到二维特征图;
编码器模块,包括一个单向双层长短时记忆网络LSTM,负责将二维特征图转化为一维特征序列,再输入到LSTM中提取全局语义信息,并输出LSTM最后时刻的隐状态;
解码器模块,包括一个基于注意力机制的单向双层长短时记忆网络AM-LSTM,负责基于全局语义信息更新每个时间步的AM-LSTM的隐状态,并在每个时间步中根据AM-LSTM的隐状态和二维特征图计算原始的注意力权重,利用该权重加权求和得到原始加权特征向量;将原始加权特征向量和矫正后加权特征向量融合一起来预测待识别图片的字符;
基于高斯约束的矫正模块,负责在每一个解码时间步,将AM-LSTM的对应时间步的隐状态和原始加权特征向量拼接后经过一个全连接层预测一组高斯分布的参数,该参数包括均值和方差,并利用所述参数构造一个二维的高斯分布作为掩膜,最后将掩膜与原始的注意力权重相乘,得到矫正的注意力权重,根据该权重得到矫正后加权特征向量。
4.如权利要求3所述的系统,其特征在于,特征提取模块包括一个31层的残差网络。
5.如权利要求3所述的系统,其特征在于,编码器模块将负责将二维特征图进行最大值池化,转化为一维特征序列。
6.如权利要求3所述的系统,其特征在于,解码器模块负责在解码的第一个时间步中输入全局语义信息,得到下一个时间步的解码结果,之后每个时间步根据上一个时间步的解码结果更新AM-LSTM的隐状态。
7.如权利要求3所述的系统,其特征在于,所述系统通过计算字符识别损失和注意力权重损失来优化训练。
8.如权利要求7所述的系统,其特征在于,字符识别损失通过计算预测的字符概率与识别标注之间的交叉熵损失来优化,注意力权重损失通过计算预测的字符注意力分布与字符位置标注之间的L1回归损失来进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010767079.6/1.html,转载请声明来源钻瓜专利网。





