[发明专利]一种基于可微分二值化的实时文本检测方法有效
| 申请号: | 201911038562.4 | 申请日: | 2019-10-29 |
| 公开(公告)号: | CN110781967B | 公开(公告)日: | 2022-08-19 |
| 发明(设计)人: | 白翔;廖明辉;万昭祎;姚聪 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V30/148;G06N3/08;G06N3/04 |
| 代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 微分 二值化 实时 文本 检测 方法 | ||
本发明公开了一种基于可微分二值化的实时文本检测方法。通过对图像进行分割,得到文本区域的概率图,对概率图采用可微分二值化得到二值图,在二值图上寻找联通区域即可得到文本区域的包围盒。本方法通过给概率图和二值图均施加监督,将二值化的过程纳入训练之中,提升检测效果。本发明相对于现有文本检测方法,在准确度、运行效率和通用性方面都取得了卓越效果,有很强的实际应用价值。
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于可微分二值化的实时文本检测方法。
背景技术
近年来,由于图像/视频理解、视觉搜索、自动驾驶和盲辅助等广泛的实际应用,在场景图像中阅读文本已经成为一个活跃的研究领域。
作为场景文本阅读的关键组成部分,旨在定位每个文本实例的边界框或区域的场景文本检测仍然是一项具有挑战性的任务,因为场景文本通常具有各种尺度和形状,包括水平、多向和弯曲文本。基于分割的场景文本检测方法最近引起了很多关注,因为受益于其在像素级的预测结果,它可以描述各种形状的文本。然而,大多数基于分割的方法需要复杂的后处理以将像素级预测结果分组为检测到的文本实例,从而导致推理过程中花费相当大的时间成本。
如图1所示,大多数现有的检测方法使用类似的后处理流水线:首先,它们设置一个固定的阈值,用于将分割网络产生的概率图转换成二进制图像,然后,一些启发式技术(如像素聚类)用于将像素分组为文本实例。或者,我们的流水线旨在将二值化操作插入到分段网络中以进行联合优化。通过这种方式,可以自适应地预测图像的每个位置处的阈值,这可以完全区分像素与前景和背景。然而标准二值化函数是不可微分的,因此无法直接在深度学习网络中参与反向传播训练。
发明内容
本发明的目的在于提供一种基于分割的实时文本检测方法,并在速度和精度上达到很好的平衡。
为实现上述目的,本发明提出了一种基于可微分二值化的实时文本检测方法,包括下述步骤:
(1)训练基于可微分二值化的文本检测网络模型,包括如下子步骤:
(1.1)准备具有文本位置标注的训练数据集,位置的表示方式可以是水平的矩形或者任意的多边形;
(1.2)定义场景文本检测网络模型,使用步骤(1.1)中适应于批量训练的带标注训练数据集,设计损失函数,选择参数优化器,利用反向传导方法训练该网络,得到场景文本检测网络模型;具体包括如下子步骤:
(1.2.1)如图2所示构建基于可微分二值化的场景文本检测网络模型,所述网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成。其中,所述基本特征提取模块以ResNet-18或者ResNet-50深度卷积神经网络为基础网络,采用特征金字塔的形式,将不同尺寸的特征图进行融合,用于从输入图片中提取基本特征;将提取的基本特征分别输入概率图预测模块和阈值图预测模块;概率图预测模块和阈值图预测模块的组成结构是一致的,均由一个3*3的卷积层和两个stride为2的反卷积层组成;然后将概率图和阈值图输入二值化模块,得到二值图;最后对二值图找连通区域,得到文本包围盒。
(1.2.2)生成分割图和阈值图的训练标签,所述分割图的训练标签被用于概率图预测模块生成概率图,所述阈值图的训练标签被用于阈值图预测模块生成阈值图。对于一幅文字图片,每个标注的文字区域由多边形描述,其中n为多边形的端点数量。为了生成分割图和阈值图的训练标签,首先通过多边形内缩算法变换为内缩或外扩的多边形框。内缩或外扩的距离由框的面积和周长计算得到,表达式为:
其中L是多边形的周长,A表示多边形的面积,r是内缩系数。从内缩之后的多边形框可以得到分割图的标签:在多边形内的像素视为正样本而其他像素位置视为负样本。同样地,从原始多边形框到内缩和外扩多边形框之间的区域可以生成阈值图的渐进标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911038562.4/2.html,转载请声明来源钻瓜专利网。





