[发明专利]自然场景图像中曲线文字的检测识别方法有效
申请号: | 201910592008.4 | 申请日: | 2019-07-02 |
公开(公告)号: | CN110287960B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 操晓春;赵汉玥;代朋纹 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06K9/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 陈艳 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然 场景 图像 曲线 文字 检测 识别 方法 | ||
本发明公开了一种自然场景图像中曲线文字的检测识别方法,本方法用于解决曲线文字识别中边界模糊且与背景对比度低的问题,提高曲线文字检测精度。主要步骤包括1)对基于Mask RCNN网络的曲线文字检测网络进行训练,利用训练好的曲线文字检测网络对自然场景图像进行检测,检测出图像中的文字区域;2)利用矫正网络将文字区域的曲线文字矫正成水平文字,输出矫正后图像;3)对曲线文字识别网络进行训练,利用训练好的曲线文字识别网络提取矫正后图像的卷积特征,对卷积特征进行解码,识别出文字。
技术领域
本发明属于计算机视觉技术领域,具体涉及一种能够在自然场景下检测和识别曲线文字的方法。
背景技术
自然场景中文字信息无处不在,近年来随着摄影器材的普及,网络空间中图像和视频数据量急剧上升。与此同时,自动驾驶、机器人等人工智能产品的迅速发展,使得文字检测和识别技术的应用也越来越广泛。利用计算机视觉技术,自动分析解释图像中的信息,并且进一步理解图像中的语义内容就显得尤为重要。不同于传统的文字检测和识别方法主要面向于高质量的图片,自然场景下的文字检测和识别受到环境的影响,有图像背景复杂、分辨率低下、字体多样、分布随意等特点。因此,传统的文字检测识别方法在自然场景下不具备适用性。近年来,得益于机器学习算法的发展,图像文字检测识别技术取得较大进步,最近的文字检测识别算法较多依赖于深度学习。
文字检测即定位出图片中文字所在的具体区域,文字识别即识别出所检测区域的具体文字信息内容。目前基于深度学习的文字检测和识别方法从网络结构上可以分为两类,第一种是检测网络加识别网络的方法,先利用文字检测网络检测文字的位置,输出文字区域信息,再将文字区域输入到文字识别网络进行识别,最终输出文字图片坐标定位和文字内容识别结果。第二种是端到端的识别方法,同时进行文字检测和识别,输出文本位置信息和文本内容信息。从文字方向上可以分为三类:水平文字、倾斜文字、曲线文字。
关于水平文字检测和识别技术的研究,是目前文字识别应用中最成功的。水平文字检测即输出矩形文字框,四个自由度。其中,CTPN文字检测网络把文本行看做是由细条状区域组成的,通过Faster R-CNN中的RPN检测细条状区域,并把卷积神经网络(CNN)与循环神经网络(RNN)结合起来,实现了准确快速定位。而TextBoxes文字检测器在SSD框架基础上改进以适应文本行窄长等特征。水平文字识别应用广泛的有CRNN识别网络,该网络由CNN+BiLSTM+CTC构成,实现了端到端训练。与水平文字相比,倾斜文字检测识别与主要体现在文字检测方面,即输出平行四边形文字框,八个自由度。EAST是一个简单高效的文字检测网络,利用了Inception的思想采用PVANet模型提取特征,相比于CTPN减少了很多中间过程,支持多方向的文字定位。TextBoxes++是在TextBoxes上进行改进的多方向文本检测网络。当然,曲线文字检测识别是难度最高的,目前并没有取得很好的效果及相关应用。其难点主要在于文字分布和方向的无规则性,曲线文字检测即输出凸多边形文字框,多个自由度。曲线文字边界模糊和文字与背景对比度较低,导致直接应用目标示例分割方法进行曲线文字检测效果并不理想。曲线文字识别则是考虑先通过矫正网络将文字调整成水平文字,再进行识别。综合曲线文字检测识别技术中的难点问题,设计合理的特征提取方法,改进网络结构,对于提高检测和识别曲线文字的精度至关重要。
发明内容
本发明的目的是提出一种自然场景图像中曲线文字的检测识别方法,能够应对自然场景下文字信息分布的无规则性和无方向性,以及自然场景的环境多变性,对自然场景中曲线文字信息进行有效地检测识别。
为实现上述目的,本发明采用的技术方案如下:
一种自然场景图像中曲线文字的检测识别方法,包括以下步骤:
1)对基于Mask RCNN网络的曲线文字检测网络进行训练,利用训练好的曲线文字检测网络对自然场景图像进行检测,检测步骤包括:
提取图像的文字特征,并对文字特征进行增强;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910592008.4/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序