[发明专利]一种基于轮廓建模的文本检测方法有效
申请号: | 202110335246.4 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112926581B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 汪增福;吴仕莲 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/146;G06V30/18;G06V30/19;G06V10/82;G06N3/04 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230031 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 轮廓 建模 文本 检测 方法 | ||
本发明公开了一种基于轮廓建模的文本检测方法,其步骤包括:首先收集包含文字的图片并进行人工标注,建立用于文本检测的图片数据集;接着构建基于轮廓建模的文本检测模型;然后运行基于轮廓建模的文本检测模型,得到文本轮廓预测结果与文本坐标偏移预测结果;最后进行后处理,得到每一个文本的外接多边形。本发明能够检测任意形状的文本,具有鲁棒性高,速度快的优点。
技术领域
本发明涉及涉及文字检测领域的相关问题,具体涉及一种基于轮廓建模的文本检测方法。
背景技术
文字检测领域中,目前最常用的算法都是基于深度学习的方法:主要有两种方法,一种是基于分割的方法,一种是基于检测的方法;前者可以检测任意形状文本,但相邻的文本难以区分,且后处理复杂;后者流程简单,但不能检测任意形状,且受到感受野的限制,对于长文本效果不佳。
发明内容
本发明克服了现有技术的不足之处,提供一种基于轮廓建模的文本检测方法,以期通过轮廓预测来确定文本实例,从而提升文字检测的准确率与鲁棒性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于轮廓建模的文本检测方法的特点在于,包括以下步骤:
步骤1:收集包含文字的图片并进行人工标注,从而建立用于文本检测的图片数据集;
步骤2:构建基于轮廓建模的文本检测模型,包括:特征提取模块Backbone,特征融合模块FFM,文本轮廓预测模块CM,文本坐标偏移预测模块OM;
所述特征提取模块Backbone,包含:4组BasicBlock层、一个卷积层与5个最大池化层;每组BasicBlock层由3M个卷积组成;
所述特征融合模块FFM,包含8个卷积层,4个上采样层;
所述文本轮廓检测模块CM,包含N+1个卷积层;
所述文本坐标偏移预测模块OM,包含N+1个卷积层;
步骤3:运行基于轮廓建模的文本检测模型;
步骤3.1:将所述图片数据集的一张图片X送入所述特征提取模块Backbone中,先经过一个卷积层及最大池化层处理后,再输入4组BasicBlock层中,且每经过1组BasicBlock层的3M个卷积层处理后,再经过一个最大池化层的下采样处理,从而在经过4个BasicBlock层以及4个最大池化层处理后,得到四个特征图F1、F2、F3、F4,其尺寸分别为其中,H和W是背景图片X的高与宽;
其中,利用式(1)得到第一个最大池化层的下采样后的输出Out1:
Out1=MaxPool(Conv1(X)) (1)
式(1)中,Conv1(·)表示第一卷积操作,其卷积核的输出通道数为C;MaxPool(·)表示步长为2的最大池化层;
利用式(2)得到第1组BasicBlock层的输出F1:
F1=MaxPool(ConvBlock1(Out1)) (2)
式(2)中,ConvBlock1(·)表示第1组BasicBlock层的3M个卷积操作,其卷积核的输出通道数为C;
利用式(3)得到第2组BasicBlock层的输出F2:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院,未经中国科学院合肥物质科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110335246.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于半监督学习的文字识别方法
- 下一篇:语音合成方法和装置