[发明专利]一种针对自然场景的文本检测与识别方法及系统有效
| 申请号: | 202010209803.3 | 申请日: | 2020-03-23 |
| 公开(公告)号: | CN111340034B | 公开(公告)日: | 2023-04-07 |
| 发明(设计)人: | 李舟军;肖武魁;刘俊杰;陈小明;田茂清 | 申请(专利权)人: | 深圳智能思创科技有限公司 |
| 主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V20/62;G06V30/18;G06V30/19;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 深圳市恒程创新知识产权代理有限公司 44542 | 代理人: | 赵爱蓉 |
| 地址: | 518000 广东省深圳市南山区南头街道莲*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 针对 自然 场景 文本 检测 识别 方法 系统 | ||
本发明是一种针对自然场景的文本检测与识别方法及系统,具体是针对复杂背景、大角度、中英文混合、生僻字等问题,提出了一种针对自然场景的文本检测系统及方法、一种针对自然场景的文本识别系统及方法,解决了真实应用场景下文本检测与识别的诸多问题。本发明使用多尺度特征网络解决文本检测中的多尺度和复杂背景问题,使用平衡注意力机制解决文本识别中的生僻字问题。通过以上方式,本发明提出的技术使得文本检测与识别模型能够应用于真实场景,极大提高了实用性。
技术领域
本发明涉及一种针对自然场景的的文本检测与识别方法及系统,尤其涉及一种基于多尺度图像分割的文本检测模型和基于平衡注意力机制的文本识别模型,属于计算机视觉技术领域。
背景技术
近年来,深度学习技术快速发展,并已经在图像识别、语音识别、自然语言处理和围棋等领域超越了人类水平。图像识别是实现人工智能的核心技术,在图像识别领域,深度学习技术也在图像分类、图像检测等方面也取得了重要突破。文本检测与识别作为图像处理领域的核心技术,借助于深度学习技术的推动获得了快速发展。
基于深度学习的文本检测与识别算法在自然场景中进行使用时,经常会遇到以下几个困难与挑战:
(1)一些场景下的图像中存在着复杂背景纹理。在一些特殊场景中(例如室外自然场景),文本区域附近有复杂多变的背景,很容易对文本检测造成干扰,造成文本检测框漏识别或者文本误识别。
(2)图像中的文本区域角度和形状变化大。在很多场景中,文本区域往往具有一定的角度,而且区域本身也不是一个规则的矩形,这对文本检测带来了极大的挑战。这要求文本检测算法能够预测大角度和不规则形状的文本检测框,对文本检测算法设计和训练带来了一些困难和挑战。
(3)文本识别中常常需要面对中英文混合文本。在一些特殊场景中(例如票据场景),文本框中的文本常常同时包含中英文、数字和符号。由于中英文、数字和符号在训练数据集中的分布往往差别很大,中文包含三千到四千字符,而英文只有二十六个字符,导致文本识别模型不能同时很好的学习到中英文的信息。当出现中英文混合的文本时,上下文语义关联往往更加复杂,文本识别模型就更加容易出错。
(4)中文文本识别中的生僻字问题。中文包含五千左右字符,而其中的常用字只有一千左右,剩下的大多数字符出现的频率很少,导致真实场景中的中文文本识别数据集中往往具有十分严重的分布不均衡现象。这导致了学习出的文本识别模型对于一些中文生僻字的识别效果较差,在一些复杂的文本识别图像中容易出错,这是面向中英文的文本识别研究中的一个重大的问题和挑战。
综上,本发明提出了基于多尺度图像分割的文本检测模型和基于平衡注意力机制的文本识别模型,能够有效解决在自然场景中文本检测与识别模型遇到的诸多问题与挑战,并且取得了良好的效果。
发明内容
本发明的目的在于,针对背景技术中提及的复杂背景、大角度、中英文混合、生僻字等问题,提出一种针对自然场景的文本检测与识别方法及系统;具体而言是针对复杂背景、大角度的问题,提出一种基于多尺度图像分割的文本检测模型;针对中英文混合、生僻字的问题,提出一种基于平衡注意力机制的文本识别模型,解决了真实应用场景下文本检测与识别的诸多问题。
本发明技术解决方案:
一种针对自然场景的文本检测与识别系统,所述文本检测与识别系统包括基于多测度图像分割的文本检测模型和基于注意力机制的文本识别模型;
所述的文本检测模型用于对自然场景图像中的文本区域进行检测,定位包含文本区域的四边形区域;所述的文本检测模型包括多尺度特征提取网络、多尺度标签生成模块和渐进式多尺度特征图模块;所述的多尺度标签生成模块用于生成层次分割标签,以用于多尺度特征提取网络的训练;所述的多尺度特征提取网络模块用于获得图像的数学化特征表示方法;所述的渐进式特征图扩展与融合模块:用于提取最终用于预测的分割图,作为所述文本检测模型最终的输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳智能思创科技有限公司,未经深圳智能思创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010209803.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种蓄电池和混合动力车辆
- 下一篇:LED泄放电路和LED驱动电路





