[发明专利]一种基于选择性注意力机制的任意形状文本识别方法在审
| 申请号: | 202010807024.3 | 申请日: | 2020-08-12 |
| 公开(公告)号: | CN111950453A | 公开(公告)日: | 2020-11-17 |
| 发明(设计)人: | 王勇;朱军民;曹羽 | 申请(专利权)人: | 北京易道博识科技有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 巴晓艳 |
| 地址: | 100083 北京市海淀区农大南路1号院2号楼7层办公A-7*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 选择性 注意力 机制 任意 形状 文本 识别 方法 | ||
1.一种基于选择性注意力机制的任意形状文本识别方法,其特征在于,所述方法包括:
步骤1:输入原始文本图像,对原始文本图像进行预处理,得到原始文本图像的样本集;
步骤2:通过融入通道注意力机制模块的残差骨干卷积神经网络对预处理后的原始图像的特征进行编码并输出编码特征图,得到基本图像特征图;
步骤3:针对基本图像特征图分别进行文本图像特征编码和文本区域掩膜特征编码,并进行双向特征加权融合,得到融合特征图;
步骤4:通过选择性注意力机制和长短期记忆网络解码模块,解码融合特征图;
步骤5:输出识别的文本信息。
2.根据权利要求1所述的基于选择性注意力机制的任意形状文本识别方法,其特征在于,所述步骤2具体包括:
步骤21:加载残差骨干卷积神经网络预训练模型;
步骤22:将通道注意力机制模块嵌入到残差骨干卷积神经网络预训练模型的每一个卷积块中;
步骤23:调整方形的卷积核为特殊的不规则形状;
步骤24:通过样本集对嵌入通道注意力机制模块的残差骨干卷积神经网络预训练模型进行训练、验证和测试,并根据测试精度表现调整整体网络的深度和宽度,以达到最高的精度;
步骤25:输出基本图像特征图。
3.根据权利要求2所述的基于选择性注意力机制的任意形状文本识别方法,其特征在于,步骤21中,所述残差骨干卷积神经网络预训练模型为已在大规模的分类图片样本集上训练获得的残差骨干卷积神经网络预训练模型。
4.根据权利要求2所述的基于选择性注意力机制的任意形状文本识别方法,其特征在于,步骤23中,调整方形的卷积核为特殊的不规则形状包括:将N*N的卷积核调整为N*M的卷积核,其中,N和M为正整数。
5.根据权利要求2所述的基于选择性注意力机制的任意形状文本识别方法,其特征在于,步骤24中,整体网络的的深度指网络的层数,宽度指每一个卷积层的卷积核数量。
6.根据权利要求1所述的基于选择性注意力机制的任意形状文本识别方法,其特征在于,所述步骤3具体包括:
步骤31:将基础特征编码特征图分别输入文本图像全卷积神经网络和文本区域掩膜全卷积神经网络进行特征编码;
步骤32:分别输出文本图像编码特征图和文本区域掩膜编码特征图;
步骤33:将同一融合节点的所有权重值通过归一化指数函数进行归一化,转换到0-1之间的值,对文本图像编码特征图和文本区域掩膜编码特征图进行加权求和,得到融合特征图。
7.根据权利要求6所述的基于选择性注意力机制的任意形状文本识别方法,其特征在于,所述文本图像全卷积神经网络在序列损失的监督下进行文本图像特征学习;
文本区域掩膜全卷积神经网络在掩膜标签的监督下,通过掩膜损失监督学习文本区域掩膜的表示,基于序列损失计算的参数梯度会间接地传播到掩膜分支,进行监督学习。
8.根据权利要求1所述的基于选择性注意力机制的任意形状文本识别方法,其特征在于,所述步骤4具体包括:
步骤41:计算上一时刻长短期记忆网络隐藏层状态与融合特征图不同位置的特征向量之间的相关度;
步骤42:完成相关度之间的对齐,得到归一化的二维注意力机制权重;
步骤43:利用二维注意力机制权重对融合特征图进行加权求和,得到最终的背景向量;
步骤44:背景向量与上一时刻的隐藏层状态以及上一时刻预测字符的词向量一起,经过空间变换后作为长短期记忆网络解码器的输入,以完成对当前时刻目标字符的预测。
9.一种端到端的图章识别系统,所述系统包括:处理器和用于存储可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以执行如权利要求1至8中任一项所述的一种基于选择性注意力机制的任意形状文本识别方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的一种基于选择性注意力机制的任意形状文本识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易道博识科技有限公司,未经北京易道博识科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010807024.3/1.html,转载请声明来源钻瓜专利网。





