[发明专利]一种对形状鲁棒的自然场景中文本检测的方法在审
申请号: | 201910189627.9 | 申请日: | 2019-03-13 |
公开(公告)号: | CN110008950A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 路通;侯文博;王文海 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 尺度 生长 检测 训练图片 自然场景 鲁棒 预处理 检测器模型 分割结果 检测结果 特征融合 特征提取 文本数据 网络 中文 预测 算法 分割 监督 图片 | ||
本发明公开了一种对形状鲁棒的自然场景中文本检测的方法,包括如下步骤:步骤1,对文本数据集中的训练图片进行预处理;步骤2,搭建PSENet进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;步骤4,对待检测图片进行检测;步骤5,使用尺度生长算法得到最终检测结果。
技术领域
本发明涉及深度学习技术领域,尤其涉及一种对形状鲁棒的自然场景中文本检测的方法。
背景技术
近几年来,自然场景中的文本检测在场景理解,产品识别,自动驾驶和目标地理定位等许多领域都开始了广泛的应用。然而,由于前景的文本块和文本行与背景物体之间的尺度差异较大,并且文本在形状、颜色、字体、大小及方向的不同,自然场景的文本检测依然面临巨大挑战。
目前,卷积神经网络的迅速发展使得场景文本检测取得巨大进展。现有的文本检测方法大致可以分为两种类型:基于边界框回归的方法和基于物体分割的方法。基于边界框回归的方法可以以矩形或四边形的形式定位出方向固定的目标文本,但是这类方法不能准确定位形状不规则的文本实例,而自然场景中这种不规则文本实例非常常见。另外一类基于语义分割的方法在解决任意形状的文本检测问题时被提出来,因为像素级别的分割可以获取任意形状的文本实例的边缘信息。然而当两个文本实例相距非常近时这类方法无法将实例成功分离,因为连接区域会将两个实例合并成同一个文本实例。上述两个问题是场景文本检测领域内仍然存在的两个困难,为了提升场景文本检测的准确率和召回率,解决以上两个问题是非常有必要的。
发明内容
本发明针对现有方法和技术的不足,提出一种基于实例分割的新型场景文本检测方法,给定一张场景图片,本发明将在该场景图片中检测出所有文本出现的位置并用边界框将所有文本实例包围起来,给出文本检测的结果。
本发明方法包括如下步骤:
步骤1,对文本图片数据集中的训练图片进行预处理;
步骤2,搭建PSENet(Progressive Scale Expansion Network)进步式尺度生长网络,利用所述进步式尺度生长网络完成对训练图片的特征提取、特征融合以及分割预测,得到多个预测尺度的分割结果;
步骤3,对步骤2中搭建的PSENet进步式尺度生长网络进行监督训练得到检测器模型;
步骤4,对待检测图片进行检测;
步骤5,使用尺度生长算法得到最终检测结果。
本发明中,步骤1中所述文本数据集为已有的公共的文本图片数据集,例如:ICDAR2015、ICDAR 2017MLT、Total-Text或CTW1500等,或者临时采集场景中的文本图片数据集,所述文本图片数据集中通常包含有N张(一般为一千张以上)的训练图片,每张训练图片中有至少一个文本区域,并且有一个以矩形或多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件,所述标注文件称为标签。
本发明中,步骤1包括:对文本数据集中的训练图片进行如下数据增强:首先将训练图片按照比例{0.5,1.0,2.0,3.0}随机放缩,然后将训练图片随机水平翻转且在[-10°,10°]范围内进行随机旋转,最后从训练图片上随机裁剪出大小为640×640的样例,作为最终的训练图片。
本发明中,步骤2中,所述PSENet进步式尺度生长网络包括一个FPN(FeaturePyramid Networks,特征金字塔网络)特征金字塔网络模块,一个特征融合模块和一个n支路预测模块,所述n支路预测模块包含n个预测支路模块。
本发明中,步骤2包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910189627.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像目标检测方法、系统、装置和存储介质
- 下一篇:一种目标检测方法及装置