[发明专利]一种基于轮廓建模的文本检测方法有效
申请号: | 202110335246.4 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112926581B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 汪增福;吴仕莲 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/146;G06V30/18;G06V30/19;G06V10/82;G06N3/04 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230031 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 轮廓 建模 文本 检测 方法 | ||
1.一种基于轮廓建模的文本检测方法,其特征在于,包括以下步骤:
步骤1:收集包含文字的图片并进行人工标注,从而建立用于文本检测的图片数据集;
步骤2:构建基于轮廓建模的文本检测模型,包括:特征提取模块Backbone,特征融合模块FFM,文本轮廓预测模块CM,文本坐标偏移预测模块OM;
所述特征提取模块Backbone,包含:4组BasicBlock层、一个卷积层与5个最大池化层;每组BasicBlock层由3M个卷积组成;
所述特征融合模块FFM,包含8个卷积层,4个上采样层;
所述文本轮廓检测模块CM,包含N+1个卷积层;
所述文本坐标偏移预测模块OM,包含N+1个卷积层;
步骤3:运行基于轮廓建模的文本检测模型;
步骤3.1:将所述图片数据集的一张图片X送入所述特征提取模块Backbone中,先经过一个卷积层及最大池化层处理后,再输入4组BasicBlock层中,且每经过1组BasicBlock层的3M个卷积层处理后,再经过一个最大池化层的下采样处理,从而在经过4个BasicBlock层以及4个最大池化层处理后,得到四个特征图F1、F2、F3、F4,其尺寸分别为其中,H和W是背景图片X的高与宽;
其中,利用式(1)得到第一个最大池化层的下采样后的输出Out1:
Out1=MaxPool(Conv1(X)) (1)
式(1)中,Conv1(·)表示第一卷积操作,其卷积核的输出通道数为C;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第1组BasicBlock层的输出F1:
F1=MaxPool(ConvBlock1(Out1)) (2)
式(2)中,ConvBlock1(·)表示第1组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为C;
利用式(3)得到第2组BasicBlock层的输出F2:
F2=MaxPool(ConvBlock2(F1)) (3)
式(3)中,ConvBlock2(·)表示第2组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为2C;
利用式(4)得到第3组BasicBlock层的输出F3:
F3=MaxPool(ConvBlock3(F2)) (4)
式(4)中,ConvBlock3(·)表示第3组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为4C;
利用式(5)得到第4组BasicBlock层的输出F4:
F4=MaxPool(ConvBlock4(F3)) (5)
式(5)中,ConvBlock4(·)表示第4组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为8C;
步骤3.2:将四个特征图F1、F2、F3、F4送入特征融合模块FFM中,从而利用式(6)-式(14)进行特征融合:
In4=Convin4(F4) (6)
P4=Convout4(In4) (7)
式(6)-式(7)中,Convin4(·)表示卷积核输入通道数为8C,输出通道数为A的卷积操作,用于平滑输入特征,In4表示对第4个特征图F4平滑后的特征;Convout4(·)表示输出通道数为B的卷积操作,用于得到下采样为32倍尺度的输出特征P4;
In3=Convin3(F3) (8)
P3=Convout3(UP(In4)+In3) (9)
式(8)-式(9)中,Convin3(·)表示卷积核输入通道数为4C,输出通道数为A的卷积操作,用于平滑输入特征,In3表示对第3个特征图F3平滑后的特征;UP(·)表示上采样操作;Convout3(·)表示输出通道数为B的卷积操作,用于得到下采样为16倍尺度的输出特征P3;
In2=Convin2(F2) (10)
P2=Convout2(UP(In3)+In2) (11)
式(10)-式(11)中,Convin2(·)表示卷积核输入通道数为2C,输出通道数为A的卷积操作,用于平滑输入特征,In2表示对第2个特征图F2平滑后的特征;Convout2(·)表示输出通道数为B的卷积操作,用于得到下采样为8倍尺度的输出特征P2;
In1=Convin1(F1) (12)
P1=Convout1(UP(In2)+In1) (13)
式(12)-式(13)中,Convin1(·)表示卷积核输入通道数为C,输出通道数为A的卷积操作,用于平滑输入特征,In1表示对第1个特征图F1平滑后的特征;Convout1(·)表示输出通道数为B的卷积操作,用于得到下采样为4倍尺度的输出特征P1;
Pfuse=UP8(P4)+UP4(P3)+UP2(P2)+P1 (14)
式(14)中,UP8(·)、UP4(·)、UP2(·)分别表示8倍上采样操作、4倍上采样操作、2倍上采样操作,Pfuse表示多种尺度信息的融合特征;
步骤3.3:将步骤3.2得到的融合特征Pfuse分别送入文本轮廓检测模块CM与文本坐标偏移预测模块OM,从而利用式(15)和式(16)得到文本轮廓预测结果ClsX与文本坐标偏移预测结果OffsetX:
ClsX=Convcls(ConvNcls(Pfuse)) (15)
OffsetX=Convoffset(ConvNoffset(Pfuse)) (16)
式(15)-式(16)中,ConvNcls(·)表示用于轮廓检测的N次卷积操作,Convcls(·)表示一个卷积核输出通道数为1的卷积操作;ConvNoffset(·)表示为了用于坐标偏移预测的N次卷积操作,Convoffset(·)表示一个卷积核输出通道数为8的卷积操作;
步骤4:对步骤3的结果进行后处理,得到最终文本检测结果;
步骤4.1:确定文本实例:
对文本轮廓预测结果ClsX作二值化处理,然后查找到其包含的所有轮廓,并用最小外接旋转矩形来拟合每一个查找到的轮廓;且每一个轮廓对应一个文本实例;
步骤4.2:确定文本实例的外接多边形:
首先遍历查找到的每一个轮廓,再遍历每一个轮廓上的所有点,并在文本坐标偏移预测结果OffsetX上选择对应轮廓点的预测结果,将每个轮廓点的预测结果与相应轮廓点的坐标进行加法处理,从而得到文本实例的边界点坐标集合;最后用多边形拟合算法对边界点坐标集合进行拟合,从而得到最终的外接多边形作为图片X的文本检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院,未经中国科学院合肥物质科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110335246.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于半监督学习的文字识别方法
- 下一篇:语音合成方法和装置