[发明专利]一种基于机器学习的身份证图像文本识别方法在审
| 申请号: | 201710416957.8 | 申请日: | 2017-06-06 |
| 公开(公告)号: | CN107247950A | 公开(公告)日: | 2017-10-13 |
| 发明(设计)人: | 屈鸿;黄鹂;高榕;刘永胜;张翮;史冬霞;陈珊;汪一文 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46;G06K9/62 |
| 代理公司: | 成都弘毅天承知识产权代理有限公司51230 | 代理人: | 徐金琼,刘东 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 机器 学习 身份证 图像 文本 识别 方法 | ||
技术领域
一种基于机器学习的身份证图像文本识别方法,用于身份证图像上的文本识别,属于图像处理,机器视觉,神经网络等技术领域。
背景技术
证件识别是利用光学字符识别(OCR,Optical Character Recognition)技术来对证件上的文字信息进行识别。具体是指利用OCR技术对扫描、拍照后的证件图像进行分析、识别,以获得证件上的文本信息的过程。与传统的人工录入方式相比较,OCR的自动信息录入具有巨大的优势,在速度和准确率方面要远超人类的工作效率,尤其是在人们随着工作时间的增加而处于疲劳状态下,人们不单单录入信息的速度降低,准确率也要自然而然的降低。人类在处理机械式的繁琐工作时天然的无法战胜机器,为了追求资源配置的合理优化,将人类从此类工作中解放出来并投入到其他工作势在必然,OCR这项技术就伴随着人类的这种诉求诞生出来。
一个OCR识别系统的目的,就是将图像文件的文字提取出来,然后进行版面还原。通常一个OCR系统的实现主要包含四个步骤:图像预处理,文字区域检测,字符切割,字符识别:
(1)图像的预处理
图像预处理部分主要包括二值化,图像降噪,倾斜矫正等等。图像预处理是识别过程的先行步骤,是为了提升后续处理单元的处理效率和准确率。以RGB彩色图像为例,一个像素点含有彩色三分量,而二值图像只需要一个分量就可以表示,那么彩色图像所占用的存储空间将是二值图像的三倍。这么大的信息量不仅计算量大且计算复杂度也高,所以需要对图片进行二值化处理。再则,由于图片本身的质量的差次不齐,预处理工作首先要根据噪声的特征对待识别的图像进行去噪处理。再则,人工拍摄的图像往往会有倾斜现象,因此倾斜矫正也是十分重要的一环,便于后期扫描文字。图像预处理的步骤并不是严格按照流程固定不变的,不同的识别需求需要根据实验效果做出步骤的调整。一般来说,对于识别扫描的PDF,WORD文件所需的预处理步骤则要简单的多,而类似于车牌识别,身份证识别,街景广告牌这类环境复杂的图像,则需要很繁琐的步骤。
(2)字符区域检测
图像预处理操作进行之后,一般情况下就要开始检测图像中的文字区域。传统的文字区域检测方法有连通区域的版面分割方法和基于纹理特征的分割方法,近年比较热门的目标检测方法有fast-rcnn等基于深度神经网络的方法。
(3)字符切割
字符切割是字符识别的先行步骤,一个鲁棒性好的字符切割算法可以完整的切割出身份证上的数字、字母和中文文字。目前常用的字符切割算法有主要有两类,一类是固定间距的切割,这种方法将图像按照固定间距进行切割,把可能的字符切割出来。这类方法很适合西文字母或数字作为目标的切割,原因也很简单,因为西文单词或数字在印刷体上往往都具备很大的统一性。另一类则是不固定间距的切割,比如垂直投影法,这一类算法更适用于拥有独特间架结构的中文文字或将整个单词(word)作为目标的切割。考虑到本技术所探索的身份证识别引擎是一个能将字母、数字、中文文字都作为目标进行识别的整合性系统,因此本技术采用第二种不固定间距的切割方法,并以此方法为基础做一定的改进。
(4)字符识别
字符识别是OCR整个流程中的最后一步,也是举足轻重的一步,这一部分模块的识别正确率决定了整个OCR系统可用与否。一直以来,字符识别算法都是基于数学理论设计的算法,著名的方法有模板匹配方法即结构模式识别,统计模式识别方法。自从深度学习崛起之后,由于其对特征的高度抽象性使得其能提取到更高维的特征,运用深度学习技术的识别字符在领域内掀起一股热潮。
OCR识别的不足之处就是只能识别格式化文档比如word文档,不能很好的处理复杂背景下的证件识别,造成识别时间长、识别的准确率低、抗旋转,扭曲性差的问题。
发明内容
本发明针对上述不足之处提供了一种基于机器学习的身份证图像文本识别方法,解决现有技术中OCR识别在复杂背景下进行身份证图像自动识别时,识别时间长、识别的准确率低、抗旋转,扭曲性差的问题。
本发明采用的技术方案如下:
一种基于机器学习的身份证图像文本识别方法,其特征在于,包括以下步骤:
步骤1、将获取的拍摄的图像进行预处理,将预处理后的图像中的身份证图像和复杂的背景图像区分开;
步骤2、对检测出来的身份证图像进行文字区域检测,然后对检测出来的文字区域进行文字切割,得到一个一个文字;
步骤3、基于深度学习的字符识别模型对切分出来的文字进行识别,输出识别出来的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710416957.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于深度学习的人脸检测速度优化方法及装置
- 下一篇:一种可复制文字笔





