[发明专利]一种用于走字屏采集图像的文字识别处理方法有效
| 申请号: | 202110021188.8 | 申请日: | 2021-01-08 |
| 公开(公告)号: | CN112712080B | 公开(公告)日: | 2021-09-28 |
| 发明(设计)人: | 侯磊;张乐平;张博;支蕴倩;李海峰 | 申请(专利权)人: | 北京匠数科技有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 北京盛凡佳华专利代理事务所(普通合伙) 11947 | 代理人: | 王翠 |
| 地址: | 100036 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 走字屏 采集 图像 文字 识别 处理 方法 | ||
本发明公开了一种用于走字屏采集图像的文字识别处理方法,文字检测模型输出的特征图上分别由文字区域和背景区域两种值,通过掩码从走字屏采集图像提取文字区域;文字识别模型的输入图像为预设尺寸,文字识别模型的输出为字符类别,通过查询类别值与计算机字符的映射关系得到字符区域文字区域;根据字符区域文字区域所在的行坐标进行聚合,并按照每个字符行坐标从左到右的顺序将字符组成字符串;文字检测模型的训练阶段引入文字边缘和文字间隙图像作为训练数据,推理阶段,当采样窗口的中心落在文字边缘或在两个文字的中间空隙时,将最终的特征值定义为背景。本发明能够模拟走字屏文字特征,生成特征训练数据,使得模型能够实现对走字屏文字的针对性训练,训练效果好。
技术领域
本发明涉及文字处理技术领域,具体涉及一种用于走字屏采集图像的文字识别处理方法。
背景技术
目前,对图像中的文字进行识别(OCR),是深度学习领域的一个重要场景。不同于传统的利用图像处理技术提取文字区域特征并使用分类器判定字符,基于深度学习的OCR技术利用深度神经网络提取图像特征,能够达到比传统效果高得多的识别准确度。
基于深度学习的OCR处理一般分为两个模型,文字区域检测和文字字符识别。文字区域检测模型对输入的文本图像进行扫描,标记出其中的文字区域;文字字符识别模型对文字区域的每个字符进行提取并分类得到字符值,最终重组为文本。
走字屏是文字信息发布的重要媒介,对于走字屏文字内容的识别与分析在舆情监控与内容安全方面有重要意义。对于走字屏采集图像的识别,目前没有针对性的方法,可采用通用的对电子文档的文字识别算法或针对通用场景的文字识别算法。
现有的采用通用方案对走字屏采集图像的文字进行处理存在以下缺点:
第一、走字屏的采集图像相比起打印文字,文字笔画边缘不平滑,呈锯齿状,且往往带有畸变,针对电子文档的文字识别算法在应对上述情况时容易出现误识别;
第二、通用文字检测模型和文字识别模型复杂,训练成本高;
第三、走字屏文字图像识别一般需要部署于现场嵌入式设备,且需要实时识别。比如使用通用场景的OCR技术(如目标检测模型+循环神经网络)对走字屏图像进行识别,这种应用成本较高,计算时间更长,通用文字检测模型和文字识别模型占用资源多,计算时间长,不适用与嵌入式实时计算场景;
第四、使用图像处理技术,直接对走字屏文字图像进行二值化和基于直方图阈值的坐标分割,实现走字屏文字区域检测,后续利用CNN或SVM分类器对字符进行分类识别。但该方法对文字的分割泛化性较差,无法应对文字间隔过近或有噪声的情况。
综上所述,亟需一种用于走字屏采集图像的文字识别处理的技术方案。
发明内容
为此,本发明实施例提供一种用于走字屏采集图像的文字识别处理方法,能够模拟走字屏文字特征,生成特征训练数据,使得模型能够实现对走字屏文字的针对性训练,得到更好的训练效果。
为了实现上述目的,本发明的实施方式提供如下技术方案:一种用于走字屏采集图像的文字识别处理方法,包括以下步骤:
采用卷积神经网络作为文字检测模型与文字识别模型的基础网络,对所述文字检测模型和文字识别模型的卷积核数和卷积层数进行裁剪;
通过1x1卷积层完成文字检测模型与文字识别模型全卷积化,对输入的走字屏采集图像进行多尺度特征提取,文字检测模型输出的特征图上分别有文字区域和背景区域两种值,通过掩码从所述走字屏采集图像提取文字区域;
所述文字识别模型采用基于alexnet结构的图像分类模型,文字识别模型的输入图像为预设尺寸,文字识别模型的输出为字符类别,通过查询类别值与计算机字符的映射关系得到文字区域;根据所述文字区域所在的行坐标进行聚合,并按照每个字符行坐标从左到右的顺序将字符组成字符串;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京匠数科技有限公司,未经北京匠数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110021188.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:动态调整射频参数的方法、装置和射频主机
- 下一篇:一种轴承性能自动测试装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





