[发明专利]一种基于轮廓建模的文本检测方法有效

专利信息
申请号: 202110335246.4 申请日: 2021-03-29
公开(公告)号: CN112926581B 公开(公告)日: 2022-11-08
发明(设计)人: 汪增福;吴仕莲 申请(专利权)人: 中国科学院合肥物质科学研究院
主分类号: G06V20/62 分类号: G06V20/62;G06V30/146;G06V30/18;G06V30/19;G06V10/82;G06N3/04
代理公司: 安徽省合肥新安专利代理有限责任公司 34101 代理人: 陆丽莉;何梅生
地址: 230031 安徽*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 轮廓 建模 文本 检测 方法
【权利要求书】:

1.一种基于轮廓建模的文本检测方法,其特征在于,包括以下步骤:

步骤1:收集包含文字的图片并进行人工标注,从而建立用于文本检测的图片数据集;

步骤2:构建基于轮廓建模的文本检测模型,包括:特征提取模块Backbone,特征融合模块FFM,文本轮廓预测模块CM,文本坐标偏移预测模块OM;

所述特征提取模块Backbone,包含:4组BasicBlock层、一个卷积层与5个最大池化层;每组BasicBlock层由3M个卷积组成;

所述特征融合模块FFM,包含8个卷积层,4个上采样层;

所述文本轮廓检测模块CM,包含N+1个卷积层;

所述文本坐标偏移预测模块OM,包含N+1个卷积层;

步骤3:运行基于轮廓建模的文本检测模型;

步骤3.1:将所述图片数据集的一张图片X送入所述特征提取模块Backbone中,先经过一个卷积层及最大池化层处理后,再输入4组BasicBlock层中,且每经过1组BasicBlock层的3M个卷积层处理后,再经过一个最大池化层的下采样处理,从而在经过4个BasicBlock层以及4个最大池化层处理后,得到四个特征图F1、F2、F3、F4,其尺寸分别为其中,H和W是背景图片X的高与宽;

其中,利用式(1)得到第一个最大池化层的下采样后的输出Out1

Out1=MaxPool(Conv1(X)) (1)

式(1)中,Conv1(·)表示第一卷积操作,其卷积核的输出通道数为C;MaxPool(·)表示步长为2的最大池化层;

利用式(2)得到第1组BasicBlock层的输出F1

F1=MaxPool(ConvBlock1(Out1)) (2)

式(2)中,ConvBlock1(·)表示第1组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为C;

利用式(3)得到第2组BasicBlock层的输出F2

F2=MaxPool(ConvBlock2(F1)) (3)

式(3)中,ConvBlock2(·)表示第2组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为2C;

利用式(4)得到第3组BasicBlock层的输出F3

F3=MaxPool(ConvBlock3(F2)) (4)

式(4)中,ConvBlock3(·)表示第3组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为4C;

利用式(5)得到第4组BasicBlock层的输出F4

F4=MaxPool(ConvBlock4(F3)) (5)

式(5)中,ConvBlock4(·)表示第4组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为8C;

步骤3.2:将四个特征图F1、F2、F3、F4送入特征融合模块FFM中,从而利用式(6)-式(14)进行特征融合:

In4=Convin4(F4) (6)

P4=Convout4(In4) (7)

式(6)-式(7)中,Convin4(·)表示卷积核输入通道数为8C,输出通道数为A的卷积操作,用于平滑输入特征,In4表示对第4个特征图F4平滑后的特征;Convout4(·)表示输出通道数为B的卷积操作,用于得到下采样为32倍尺度的输出特征P4

In3=Convin3(F3) (8)

P3=Convout3(UP(In4)+In3) (9)

式(8)-式(9)中,Convin3(·)表示卷积核输入通道数为4C,输出通道数为A的卷积操作,用于平滑输入特征,In3表示对第3个特征图F3平滑后的特征;UP(·)表示上采样操作;Convout3(·)表示输出通道数为B的卷积操作,用于得到下采样为16倍尺度的输出特征P3

In2=Convin2(F2) (10)

P2=Convout2(UP(In3)+In2) (11)

式(10)-式(11)中,Convin2(·)表示卷积核输入通道数为2C,输出通道数为A的卷积操作,用于平滑输入特征,In2表示对第2个特征图F2平滑后的特征;Convout2(·)表示输出通道数为B的卷积操作,用于得到下采样为8倍尺度的输出特征P2

In1=Convin1(F1) (12)

P1=Convout1(UP(In2)+In1) (13)

式(12)-式(13)中,Convin1(·)表示卷积核输入通道数为C,输出通道数为A的卷积操作,用于平滑输入特征,In1表示对第1个特征图F1平滑后的特征;Convout1(·)表示输出通道数为B的卷积操作,用于得到下采样为4倍尺度的输出特征P1

Pfuse=UP8(P4)+UP4(P3)+UP2(P2)+P1 (14)

式(14)中,UP8(·)、UP4(·)、UP2(·)分别表示8倍上采样操作、4倍上采样操作、2倍上采样操作,Pfuse表示多种尺度信息的融合特征;

步骤3.3:将步骤3.2得到的融合特征Pfuse分别送入文本轮廓检测模块CM与文本坐标偏移预测模块OM,从而利用式(15)和式(16)得到文本轮廓预测结果ClsX与文本坐标偏移预测结果OffsetX

ClsX=Convcls(ConvNcls(Pfuse)) (15)

OffsetX=Convoffset(ConvNoffset(Pfuse)) (16)

式(15)-式(16)中,ConvNcls(·)表示用于轮廓检测的N次卷积操作,Convcls(·)表示一个卷积核输出通道数为1的卷积操作;ConvNoffset(·)表示为了用于坐标偏移预测的N次卷积操作,Convoffset(·)表示一个卷积核输出通道数为8的卷积操作;

步骤4:对步骤3的结果进行后处理,得到最终文本检测结果;

步骤4.1:确定文本实例:

对文本轮廓预测结果ClsX作二值化处理,然后查找到其包含的所有轮廓,并用最小外接旋转矩形来拟合每一个查找到的轮廓;且每一个轮廓对应一个文本实例;

步骤4.2:确定文本实例的外接多边形:

首先遍历查找到的每一个轮廓,再遍历每一个轮廓上的所有点,并在文本坐标偏移预测结果OffsetX上选择对应轮廓点的预测结果,将每个轮廓点的预测结果与相应轮廓点的坐标进行加法处理,从而得到文本实例的边界点坐标集合;最后用多边形拟合算法对边界点坐标集合进行拟合,从而得到最终的外接多边形作为图片X的文本检测结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院,未经中国科学院合肥物质科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110335246.4/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top