[发明专利]一种基于渐进矫正机制的场景文本识别方法在审
申请号: | 202111039925.3 | 申请日: | 2021-09-06 |
公开(公告)号: | CN113723423A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 廖倩颖;梁凌宇;金连文;林庆祥;罗灿杰;张家鑫;彭德智;王天玮 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06K9/36 | 分类号: | G06K9/36;G06K9/34;G06K9/32 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 李娜 |
地址: | 510641 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 渐进 矫正 机制 场景 文本 识别 方法 | ||
1.一种基于渐进矫正机制的场景文本识别方法,其特征在于,包括:
采集场景文本图像,将所述场景文本图像进行渐进式矫正,获得目标文本图像,基于所述目标文本图像进行文本识别,获得识别结果。
2.根据权利要求1所述的基于渐进矫正机制的场景文本识别方法,其特征在于,
将所述场景文本图像进行渐进式矫正的过程包括,第一次矫正、第二次矫正;
所述第一次矫正通过全局矫正器对所述场景文本图像进行整体形变矫正,获得第一文本图像;
所述第二次矫正通过局部矫正器对所述第一文本图像进行局部形变矫正,获得目标文本图像。
3.根据权利要求1所述的基于渐进矫正机制的场景文本识别方法,其特征在于,
基于所述目标文本图像进行文本识别包括,采用特征矫正器和文本识别器对所述目标文本图像进行文本识别,获得所述识别结果。
4.根据权利要求2所述的基于渐进矫正机制的场景文本识别方法,其特征在于,
所述全局矫正器包括定位网络、网格生成器和采样器;
所述局部矫正器包括偏移预测网络、网格生成器和采样器;
所述定位网络包括卷积层、全连接层。
5.根据权利要求2所述的基于渐进矫正机制的场景文本识别方法,其特征在于,
通过所述全局矫正器对所述场景文本图像进行整体形变矫正包括,通过卷积网络结构搭建所述全局矫正器,基于所述全局矫正器,获得所述场景文本图像的整体形变,基于所述整体形变进行空间变换,完成整体形变矫正。
6.根据权利要求4所述的基于渐进矫正机制的场景文本识别方法,其特征在于,
基于所述全局矫正器,获得所述场景文本图像的整体形变包括,将所述场景文本图像输入所述全局矫正器,获得空间变换矩阵,基于所述空间变换矩阵和所述网格生成器对所述场景文本图像进行空间变换,获得第一采样网格;基于所述第一采样网格,通过采样器对所述场景文本图像进行采样,获得第一文本图像。
7.根据权利要求6所述的基于渐进矫正机制的场景文本识别方法,其特征在于,
所述空间变换矩阵用于通过对所述场景文本图像进行旋转、放缩和平移,消除文本图像的透视形变。
8.根据权利要求6所述的基于渐进矫正机制的场景文本识别方法,其特征在于,
通过所述局部矫正器对所述第一文本图像进行局部形变矫正包括,通过卷积网络结构搭建所述局部矫正器,将所述第一文本图像输入所述局部矫正器,获得所述第一文本图像的局部形变并进行平移;基于所述局部形变,通过所述局部矫正器,获得偏移矩阵;基于所述偏移矩阵和所述偏移预测网络对所述第一文本图像的像素位置进行调整;基于所述网格生成器获得偏移网格,将所述第一采样网格和所述偏移网格合并,获得第二采样网格;基于所述第二采样网格,通过采样器对所述第一文本图像进行采样,获得目标文本图像。
9.根据权利要求3所述的基于渐进矫正机制的场景文本识别方法,其特征在于,
采用特征矫正器和文本识别器对所述目标文本图像进行文本识别包括,通过卷积网络结构搭建特征矫正器,通过所述特征矫正器对所述目标文本图像进行矫正,获得注意力图;基于所述注意力图,通过所述文本识别器进行文本识别,获得识别结果;其中,所述特征矫正器镶嵌于所述文本识别器中。
10.根据权利要求9所述的基于渐进矫正机制的场景文本识别方法,其特征在于,
通过所述特征矫正器对所述目标文本图像进行矫正还包括,通过所述特征矫正器,获得所述目标文本图像的文本特征层次形变,并对所述文本特征层次形变进行矫正,获得特征图;基于所述特征图,对每一列特征计算注意力权重,获得所述注意力图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111039925.3/1.html,转载请声明来源钻瓜专利网。