[发明专利]基于笔画宽度变换与卷积神经网络的场景文本检测方法有效
| 申请号: | 201811021712.6 | 申请日: | 2018-09-03 |
| 公开(公告)号: | CN109117841B | 公开(公告)日: | 2020-12-11 |
| 发明(设计)人: | 肖苹苹;柯志达;林春敏;彭振文;苏亮;陈卫强;周方明 | 申请(专利权)人: | 厦门金龙联合汽车工业有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34 |
| 代理公司: | 泉州市博一专利事务所(普通合伙) 35213 | 代理人: | 方传榜 |
| 地址: | 361023 *** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 笔画 宽度 变换 卷积 神经网络 场景 文本 检测 方法 | ||
本发明公开了一种基于笔画宽度变换与卷积神经网络的场景文本检测方法,涉及场景文本检测领域,包括以下步骤:准备训练数据集,通过卷积神经网络基于Bootstrap策略训练文本二分类器;利用最大稳定极值区域算法从图像中获得候选文本区域;利用所述文本二分类器对所述候选文本区域进行分类;在候选文本区域中,基于笔画宽度变换算法获得候选字符,通过几何约束过滤候选字符。本发明的有益效果:本方法基于Bootstrap策略的训练丰富了样本图像的数量与质量;利用笔画宽度变换算法基于确定的候选文本区域提高了检测性能,并将检测级别确定为字符级;基于区域的算法以及大量中文训练样本使得方法有效地检测出中文文本。
技术领域
本发明涉及场景文本检测领域,尤其是指一种基于笔画宽度变换与卷积神经网络的场景文本检测方法。
背景技术
在无人驾驶技术中,通过感知技术来进行三维环境建模是一项重要的工作。在真实道路场景中存在着许多相关的建模数据,如交通标志牌、车牌、路牌、广告牌中的文本信息。而自然场景图像中的文本检测与识别可用于自动提取其中的文本信息,是计算机视觉中的重要研究方向之一。近年来,研究学者们的研究已经取得了一定的突破,并且搭建了一系列评估数据库。然而,由于图像场景多变、文本多样等因素,在场景图像中进行文本检测与识别仍然存在诸多挑战。
在过去几十年中,许多用于文档文本提取与识别的方法以及光学识别系统已经得到充分开发。Burns 等人(T. J. Burns, J. J. Corso. Robust UnsupervisedSegmentation of Degraded Document Images with Topic Models[C]. Proceedings ofIEEE Conference on Computer Vision and Pattern Recognition. 2009, 1287-1294.)提出了一种用于文档图像的贝叶斯生成模型,基于主题进行图像分区来区分文本、空格和图形。Liang 等人(J. Liang, D. Dementhon, D. Doermann. Geometric Rectificationof Camera-Captured Document Images[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence.2008. 30(4):591.)利用从图像获得的纹理流信息估计3D文档形状来进行平面和弯曲文档的几何矫正。但是,与文档文本不同的是,自然场景文本是以任意形状、大小、字体、方向、透视失真等特点嵌入到拥有复杂背景的图像中,因此对自然场景文本的检测更具有挑战性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门金龙联合汽车工业有限公司,未经厦门金龙联合汽车工业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811021712.6/2.html,转载请声明来源钻瓜专利网。





