[发明专利]一种基于可微分二值化的实时文本检测方法有效
| 申请号: | 201911038562.4 | 申请日: | 2019-10-29 |
| 公开(公告)号: | CN110781967B | 公开(公告)日: | 2022-08-19 |
| 发明(设计)人: | 白翔;廖明辉;万昭祎;姚聪 | 申请(专利权)人: | 华中科技大学 |
| 主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V30/148;G06N3/08;G06N3/04 |
| 代理公司: | 深圳市六加知识产权代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 微分 二值化 实时 文本 检测 方法 | ||
1.一种基于可微分二值化的实时文本检测方法,其特征在于,所述方法包括下述步骤:
(1)训练基于可微分二值化的实时文本检测方法的网络模型,包括如下子步骤:
(1.1)准备具有文本位置标注的训练数据集,位置的表示方式是水平的矩形或者任意的多边形;
(1.2)定义场景文本检测网络模型,使用步骤(1.1)中适应于批量训练的带标注训练数据集,设计损失函数,选择参数优化器,利用反向传导方法训练该网络,得到场景文本检测网络模型;包括:
(1.2.1)构建基于可微分二值化的场景文本检测网络模型,所述网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成;
(1.2.2)生成分割图和阈值图的训练标签,所述分割图的训练标签被用于概率图预测模块生成概率图,所述阈值图的训练标签被用于阈值图预测模块生成阈值图;
(1.2.3)以标准训练数据集Itr作为场景文本检测网络模型的输入,利用基本特征提取模块提取基本特征,将基本特征输入概率图预测模块得到概率图,将基本特征输入阈值图预测模块得到阈值图,分别将概率图和阈值图输入二值化模块,通过可微分二值化操作输出二值图;
(1.2.4)分别计算概率图预测模块、阈值图预测模块和二值图的损失函数,对上述3个损失函数加权求和,得到总的损失函数,反向传播计算梯度,使用随机梯度下降优化器更新模型参数,得到训练好的场景文本检测网络模型;
(2)利用上述训练好的场景文本检测网络模型进行场景文本检测,包括如下子步骤:
(2.1)将待检测的场景文本图片提取基本特征,输入概率图预测模块,得到概率图;
(2.2)将概率图根据一个预设阈值进行二值化,得到二值图;
(2.3)对二值图寻找连通区域,并将对应连通区域内的平均概率值作为置信度进行过滤,得到文本的包围盒。
2.根据权利要求1所述的基于可微分二值化的实时文本检测方法,其特征在于,所述步骤(1.2.1)中的场景文本检测网络模型具体为:
所述场景文本检测网络模型由基本特征提取模块、概率图预测模块、阈值图预测模块和二值化模块组成;其中,所述基本特征提取模块以ResNet-18或者ResNet-50深度卷积神经网络为基础网络,采用特征金字塔的形式,将不同尺寸的特征图进行融合,用于从输入图片中提取基本特征;将提取的基本特征分别输入概率图预测模块和阈值图预测模块,分别得到概率图和阈值图;概率图预测模块和阈值图预测模块的组成结构是一致的,均由一个3*3的卷积层和两个stride为2的反卷积层组成,对概率图预测模块应用分割图的训练标签,对阈值图预测模块应用阈值图的训练标签;然后将概率图和阈值图输入二值化模块,得到二值图;最后对二值图找连通区域,得到文本包围盒。
3.根据权利要求1或2所述的基于可微分二值化的实时文本检测方法,其特征在于,所述步骤(1.2.2)具体为:
对于一幅文字图片,每个标注的文字区域由多边形描述,其中n为多边形的端点数量,为了生成分割图和阈值图的训练标签,首先通过多边形内缩算法变换为内缩或外扩的多边形框,内缩或外扩的距离由框的面积和周长计算得到,表达式为:
其中L是多边形的周长,r是内缩系数,A表示多边形的面积,从内缩之后的多边形框得到分割图的标签:在多边形内的像素视为正样本而其他像素位置视为负样本,同样地,从原始多边形框到内缩和外扩多边形框之间的区域生成阈值图的渐进标签。
4.根据权利要求1或2所述的基于可微分二值化的实时文本检测方法,其特征在于,所述步骤(1.2.3)具体为:
首先,将图片输入基本特征提取模块,将这些不同尺度的特征图上采样到同一个尺度,并将它们串联起来形成融合特征图F;接下来,融合特征图F被用来预测概率图P和阈值图T,融合特征图F分别被输入概率图预测模块和阈值图预测模块,分别得到概率图P和阈值图T;最后,将概率图P和阈值图T分别输入二值化模块,通过P和T计算出二值图B,计算公式为
其中是近似二值图;B是二值图,t是预设的阈值,k是放大因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911038562.4/1.html,转载请声明来源钻瓜专利网。





