[发明专利]一种基于卷积注意力网络的自然场景文本识别方法有效
申请号: | 201810437763.0 | 申请日: | 2018-05-09 |
公开(公告)号: | CN108615036B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 谢洪涛;张勇东 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 注意力 网络 自然 场景 文本 识别 方法 | ||
1.一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,包括:
利用二维卷积CNN作为编码器,提取输入图像的高层语义特征,并输出相应的特征图至解码器;
利用一维卷积CNN作为解码器,结合注意力机制来整合编码器生成的高层语义特征与字符级语言模型,产生对应于输入图像的解码字符序列;
其中,所述解码器包含了依次连接的向量嵌入层、第一线性变换网络层、一维卷积层、以及第二与第三线性变换网络层;
假设当前时间步k对应的标签为lk,在向量嵌入层中利用经学习而得的嵌入矩阵转换后得到向量同时,标签lk绝对坐标与时间步相同,均为k,将标签lk的时间步k以相同的方式嵌入得到向量最终,通过元素级加法操作得到向量嵌入层的输出为sk=uk+vk,其中f为向量的维度;
然后,通过第一线性变换网络层对向量嵌入层的输出进行线性变换为d为编码器输出特征图中每一元素的维度;
假设一维卷积层包含m个重复网络,对于其中的第l个重复网络,l=0,1,2,...,m-1,其采用一维卷积与激活函数GLU对上一层的输出进行处理:
其中,与为对应的历史向量,矩阵Y的维度为d×3,即权重矩阵及的为卷积权重矩阵,其保证了输入向量的输出维度不变;及为偏置向量;*为一维卷积操作;为元素级乘法操作;σ(·)为sigmoid激活函数;为卷积操作的结果;
之后,通过注意力模块与残差连接进行处理,表示为:
其中,为第l个重复网络中注意力模块的输出,为一缩放因子,用于稳定激活的方差;
通过上述计算得到第l个重复网络的输出采用上述方式不断计算,从而得到最后一个重复网络的输出也即一维卷积层的输出;
第二层线性变换网络层,则将一维卷积层的输出进行线性变换为即维度由d变换为f;
第三线性变换网络层,则对第二层线性变换网络层的输出进行线性变换,再结合softmax函数,得到当前时间步k解码预测的各个字符的概率:
其中,Wo、bo对应的表示线性变换的权重矩阵、偏置向量;
选择概率最大的字符即为最终预测的字符。
2.根据权利要求1所述的一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,所述编码器中包含了依次连接的五个卷积层结构;
第一卷积层的输入图像为预先进行归一化处理为4H×4W像素尺寸的图像;第一卷积层的卷积核大小为m×m,通道数为p,跨度为g,使用的激活函数为ReLU,并配备了BN;
之后的四个卷积层均为残差块,输入特征图像的尺寸大小依次为:2H×2W、H×W、H×W及H×W,其中,H与W为编码器产生的特征图的高与宽;每一残差块中连续执行多次卷积操作,并加上残差连接操作,且每一残差块设有一定的重复次数;每次卷积操作使用的激活函数为ReLU,并配备了BN;其中最后一个残差块的最后一次卷积操作时未使用激活函数ReLU。
3.根据权利要求1或2所述的一种基于卷积注意力网络的自然场景文本识别方法,其特征在于,
假设编码器产生的特征图为其中H与W为特征图的高与宽;d为特征图中每一元素的维度;元素x′i,j在特征图X′中的空间坐标索引为(i,j),采用wordembedding的方式嵌入得到向量最终,通过元素级的加法操作得到特征向量xi,j=x′i,j+ei,j;由一系列特征向量xi,j组成的集合X即为编码器最终输出的特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810437763.0/1.html,转载请声明来源钻瓜专利网。