[发明专利]基于全局特征指导的二维注意力机制文本识别方法在审

申请号：	202011239148.2	申请日：	2020-11-09
公开（公告）号：	CN112149644A	公开（公告）日：	2020-12-29
发明（设计）人：	王鹏;杨路	申请（专利权）人：	西北工业大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08;G06N20/00
代理公司：	西北工业大学专利中心 61204	代理人：	刘新琼
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于全局特征指导二维注意力机制文本识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于全局特征指导的二维注意力机制文本识别方法，其特征在于步骤如下：

步骤1：将输入图片尺寸调整到48×160×3大小；

步骤2：将调整后的图片输入到定制版的ResNet34网络，去掉ResNet34网络最后的两层即平均池化层和全连接层，得到网络输出的原始特征图，原始特征图大小为6×20×512；所述的定制版的ResNet34是针对文字识别任务特殊改造的：将第一层卷积从7x7的卷积核修改为3x3的卷积核，将所有的2x2的最大池化层都修改为2x1的最大池化层；

步骤3：对步骤2得到的原始特征图进行1x1卷积，进行通道的改变，特征图大小变为6×20×1024；此特征图代表了整张图片的文字内容信息，所有的文字的信息分布在这个特征图的不同位置；

步骤4：将原始特征图通过6层的Bottleneck、全局池化以及一个全连接层，提取一个全局特征，其尺寸为1×1×512；此全局特征代表整张图片，它把所有文字的特征都融合在了一起；

步骤5：解码器的解码过程是串行的，也就是说是一个字一个字来进行识别的。在识别第一个文字时，首先将开始字符进行编码成1×512的特征，然后将其和位置0的位置编码特征1×512相加，形成一个带有位置信息的字符特征；然后再和步骤4得到的全局特征进行拼接，得到第一个1×1024大小的查询特征；

步骤6：通过步骤5得到的查询特征，在步骤3得到的特征图上进行比对查找第一个需要识别的文字；解码器通过计算查询特征和特征图中每一个特征的相关性，得到一个相关性的系数图，使用该相关性系数图对特征图进行求加权和，得到一个的特征；将此特征送入一个两层的前馈网络进行特征的进一步变换，最终经过分类层进行分类；分类成功后，对应位置的文字便是第一个识别的文字；

步骤7：之后每个需要识别的文字，都是通过前一个文字以及其位置编码信息进行结合，一起送进解码器作为新的查询特征；然后通过与步骤6类似的步骤，逐个解码出每一个文字，直到识别出来的文字是结束符则停止解码。

2.根据权利要求1所述的一种基于全局特征指导的二维注意力机制文本识别方法，其特征在于步骤1使用双线性插值的方法调整图像尺寸。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011239148.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于全局特征指导的二维注意力机制文本识别方法在审

专利文献下载