[发明专利]一种基于渐进矫正机制的场景文本识别方法在审

申请号：	202111039925.3	申请日：	2021-09-06
公开（公告）号：	CN113723423A	公开（公告）日：	2021-11-30
发明（设计）人：	廖倩颖;梁凌宇;金连文;林庆祥;罗灿杰;张家鑫;彭德智;王天玮	申请（专利权）人：	华南理工大学
主分类号：	G06K9/36	分类号：	G06K9/36;G06K9/34;G06K9/32
代理公司：	北京东方盛凡知识产权代理事务所(普通合伙) 11562	代理人：	李娜
地址：	510641 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于渐进矫正机制场景文本识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于渐进矫正机制的场景文本识别方法,其特征在于，包括：

采集场景文本图像，将所述场景文本图像进行渐进式矫正，获得目标文本图像，基于所述目标文本图像进行文本识别，获得识别结果。

2.根据权利要求1所述的基于渐进矫正机制的场景文本识别方法，其特征在于，

将所述场景文本图像进行渐进式矫正的过程包括，第一次矫正、第二次矫正；

所述第一次矫正通过全局矫正器对所述场景文本图像进行整体形变矫正，获得第一文本图像；

所述第二次矫正通过局部矫正器对所述第一文本图像进行局部形变矫正，获得目标文本图像。

3.根据权利要求1所述的基于渐进矫正机制的场景文本识别方法，其特征在于，

基于所述目标文本图像进行文本识别包括，采用特征矫正器和文本识别器对所述目标文本图像进行文本识别，获得所述识别结果。

4.根据权利要求2所述的基于渐进矫正机制的场景文本识别方法，其特征在于，

所述全局矫正器包括定位网络、网格生成器和采样器；

所述局部矫正器包括偏移预测网络、网格生成器和采样器；

所述定位网络包括卷积层、全连接层。

5.根据权利要求2所述的基于渐进矫正机制的场景文本识别方法，其特征在于，

通过所述全局矫正器对所述场景文本图像进行整体形变矫正包括，通过卷积网络结构搭建所述全局矫正器，基于所述全局矫正器，获得所述场景文本图像的整体形变，基于所述整体形变进行空间变换，完成整体形变矫正。

6.根据权利要求4所述的基于渐进矫正机制的场景文本识别方法，其特征在于，

基于所述全局矫正器，获得所述场景文本图像的整体形变包括，将所述场景文本图像输入所述全局矫正器，获得空间变换矩阵，基于所述空间变换矩阵和所述网格生成器对所述场景文本图像进行空间变换，获得第一采样网格；基于所述第一采样网格，通过采样器对所述场景文本图像进行采样，获得第一文本图像。

7.根据权利要求6所述的基于渐进矫正机制的场景文本识别方法，其特征在于，

所述空间变换矩阵用于通过对所述场景文本图像进行旋转、放缩和平移，消除文本图像的透视形变。

8.根据权利要求6所述的基于渐进矫正机制的场景文本识别方法，其特征在于，

通过所述局部矫正器对所述第一文本图像进行局部形变矫正包括，通过卷积网络结构搭建所述局部矫正器，将所述第一文本图像输入所述局部矫正器，获得所述第一文本图像的局部形变并进行平移；基于所述局部形变，通过所述局部矫正器，获得偏移矩阵；基于所述偏移矩阵和所述偏移预测网络对所述第一文本图像的像素位置进行调整；基于所述网格生成器获得偏移网格，将所述第一采样网格和所述偏移网格合并，获得第二采样网格；基于所述第二采样网格，通过采样器对所述第一文本图像进行采样，获得目标文本图像。

9.根据权利要求3所述的基于渐进矫正机制的场景文本识别方法，其特征在于，

采用特征矫正器和文本识别器对所述目标文本图像进行文本识别包括，通过卷积网络结构搭建特征矫正器，通过所述特征矫正器对所述目标文本图像进行矫正，获得注意力图；基于所述注意力图，通过所述文本识别器进行文本识别，获得识别结果；其中，所述特征矫正器镶嵌于所述文本识别器中。

10.根据权利要求9所述的基于渐进矫正机制的场景文本识别方法，其特征在于，

通过所述特征矫正器对所述目标文本图像进行矫正还包括，通过所述特征矫正器，获得所述目标文本图像的文本特征层次形变，并对所述文本特征层次形变进行矫正，获得特征图；基于所述特征图，对每一列特征计算注意力权重，获得所述注意力图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111039925.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种麻雀算法优化模糊聚类的推荐方法
下一篇：一种人类应激负荷测量方法及其应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于渐进矫正机制的场景文本识别方法在审

专利文献下载