[发明专利]一种对形状鲁棒的自然场景中文本检测的方法在审
申请号: | 201910189627.9 | 申请日: | 2019-03-13 |
公开(公告)号: | CN110008950A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 路通;侯文博;王文海 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 尺度 生长 检测 训练图片 自然场景 鲁棒 预处理 检测器模型 分割结果 检测结果 特征融合 特征提取 文本数据 网络 中文 预测 算法 分割 监督 图片 | ||
1.一种对形状鲁棒的自然场景中文本检测的方法,其特征在于,包括如下步骤:
步骤1,对文本图片数据集中的训练图片进行预处理;
步骤2,搭建PSENet进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;
步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;
步骤4,对待检测图片进行检测;
步骤5,使用尺度生长算法得到最终检测结果。
2.根据权利要求1所述的方法,其特征在于,步骤1中所述文本图片数据集为已有的公共的文本图片数据集,或者临时采集场景中的文本图片数据集,所述文本图片数据集中包含有N张训练图片,每张训练图片中有至少一个文本区域,并且有一个以矩形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,所述标注文件称为标签。
3.根据权利要求2所述的方法,其特征在于,步骤1包括:对文本数据集中的训练图片进行如下数据增强:首先将训练图片按照比例{0.5,1.0,2.0,3.0}随机放缩,然后将训练图片随机水平翻转且在[-10°,10°]范围内进行随机旋转,最后从训练图片上随机裁剪出大小为640×640的样例,作为最终的训练图片。
4.根据权利要求3所述的方法,其特征在于,步骤2中,所述PSENet进步式尺度生长网络包括一个FPN特征金字塔网络模块,一个特征融合模块和一个n支路预测模块,所述n支路预测模块包含n个预测支路模块。
5.根据权利要求4所述的方法,其特征在于,步骤2包括以下步骤:
步骤2-1,建立一个FPN特征金字塔网络模块,对步骤1得到的训练图片进行特征提取与特征图的上采样和融合,得到特征图(P2,P3,P4,P5),P2,P3,P4,P5分别代表FPN模块中不同卷积层产生的融合后的卷积特征图;
步骤2-2,特征融合模块包括两个子模块:特征融合函数和降维模块,使用特征融合模块中的特征融合函数C(·)对特征图(P2,P3,P4,P5)进行特征融合得到特征图F,融合函数C(·)定义如下:
F=C(P2,P3,P4,P5)=P2||Up×2(P3)||Up×4(P4)||Up×8(P5)
其中符号||表示连接,Up×2(·)、Up×4(·)和Up×8(·)分别代表2倍的上采样upsample、4倍的上采样upsample和8倍的上采样upsample:特征图经特征融合函数融合为特征图F后需进入降维模块降维到256维,降维模块为Conv(3,3)-BN-ReLU层,其中Conv(3,3)表示卷积核为3×3的卷积层,BN表示批量归一化层,ReLU为线性整流函数;
步骤2-3,特征图F进入n支路预测模块,经过n个Conv(1,1)-Up-Sigmoid层生成n个分割结果S1,S2,...,Sn,其中Conv(1,1)表示卷积核为1×1的卷积层,Up表示上采样层,Sigmoid为激活函数,Sn表示第n个分割结果,每个Si中包含对同一张图片中不同文本区域的分割结果,i取值为1~n,所述分割结果中的文本区域即为文本实例,记为kernels。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910189627.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像目标检测方法、系统、装置和存储介质
- 下一篇:一种目标检测方法及装置