[发明专利]一种身份证汉字识别方法在审
申请号: | 201510013041.9 | 申请日: | 2015-01-09 |
公开(公告)号: | CN104680130A | 公开(公告)日: | 2015-06-03 |
发明(设计)人: | 张卡;何佳;尼秀明;陈舜 | 申请(专利权)人: | 安徽清新互联信息科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/66 |
代理公司: | 合肥天明专利事务所 34115 | 代理人: | 金凯;宋倩 |
地址: | 230088 安徽省合肥市高新*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 身份证 汉字 识别 方法 | ||
技术领域
本发明涉及图像处理技术领域,具体是一种身份证汉字识别方法。
背景技术
身份证是证明公民合法身份的唯一有效证件,是公民参加各种政治、经济、社会活动所必须的证件,例如:进入活动会场、办理银行卡、入住宾馆、乘坐飞机火车、网吧上网,办理各类资格证书等。可以说,身份证已经深入我们生活的各个方面。因此,如何快捷、准确地读取身份证信息变得越来越重要。
目前,常用的读取身份证信息的技术方法有以下几种:
(1)基于身份证读卡器读取信息,该类方法是基于我国二代居民身份证具有内置非接触式IC卡智能芯片的特点实现的。该类方法的优点是:读取信息的精准度很高;对于身份证的污迹和磨损,具有很强的抵抗能力;不依赖于可见光,可以在粉尘等恶劣环境下使用;但其也存在明显的缺点:需要专门的读卡设备,设备成本较高。
(2)基于光学字符识别技术读取信息,该类方法通过图像处理技术定位身份证相关元素位置,使用模式识别技术进行字符训练和识别。该类方法的优点是准确度较高,不需要特定设备,硬件成本较低,对于各种环境的适应性强,可进行多身份证信息同时读取;其缺点是主要针对身份证的数字部分,对于汉字部分,准确度较低,因此这也限制了该类方法更广泛的应用。
由于我国的常用汉字有三千多个,因此,常用的机器学习方法无法直接适用于身份证汉字识别,目前,最流行的开源汉字识别库是google的tessract库,但该库对于汉字的图像质量和字形结构要求很高,如果直接用来识别身份证汉字,准确率只有60%,无法满足实际的应用需求。
发明内容
本发明的目的在于针对光学字符识别技术读取身份证汉字信息准确率低的缺点,提供一种身份证汉字识别方法,充分利用身份证的图像特征,对汉字进行提取和增强,在此基础上利用tessract库进行汉字识别,准确度更高。
本发明的技术方案为:
一种身份证汉字识别方法,包括以下步骤:
(1)获取分类器训练文件;
(2)将待识别彩色图像变换成灰度图像;
(3)对身份证的汉字区域进行精确定位;
(4)对每个汉字区域进行字符识别;
(5)判断当前汉字区域是否是最后一个汉字区域,若是,则输出识别结果,若否,则返回步骤(4)。
所述的身份证汉字识别方法,步骤(1)中,所述获取分类器训练文件,具体包括:
(11)加载已有的人脸检测分类器文件;
(12)加载tessract汉字识别库;
(13)基于harr特征和adaboost算法,训练关于身份证国徽的分类器文件;
(14)训练身份证汉字区域含有的数字的模板。
所述的身份证汉字识别方法,步骤(3)中,所述对身份证的汉字区域进行精确定位,具体包括:
(31)基于adaboost分类器,检测身份证正面的人脸位置和身份证背面的国徽位置;
(32)根据眼睛位置对身份证正面图像进行倾斜校正,根据国徽内五星位置对身份证背面图像进行倾斜校正;
(33)基于人脸位置和国徽位置,分别选择身份证正面和背面的汉字检测有效区域,同时进行反色处理;
(34)对图像进行模糊处理,去除背景图案干扰;
(35)获取模糊处理后的灰度图像的二值垂直边缘特征图;
(36)对二值垂直边缘特征图进行形态学运算,获取连通区域;
(37)根据面积和位置特征,选择相应的连通区域作为候选区域;
(38)基于候选区域内字符间距特征,对身份证正面和背面的各汉字区域进行精确定位;
(39)判断当前人脸位置或国徽位置是否是最后一个人脸位置或国徽位置,若是,则输出相应的汉字区域定位结果,若否,则继续执行步骤(32)至步骤(39)。
所述的身份证汉字识别方法,步骤(4)中,所述对每个汉字区域进行字符识别,具体包括:
(41)精确分割汉字字符;
(42)通过字符的宽度判断单个字符是汉字还是数字,若是汉字,则执行步骤(43),若是数字,则执行步骤(45);
(43)增强汉字字形结构;
(44)基于tessract库进行汉字识别;
(45)基于最近邻算法进行数字识别;
(46)判断当前字符是否是当前汉字区域的最后一个字符,若是,则输出汉字识别结果,若否,则进入下一个字符,继续执行步骤(42)至步骤(46)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽清新互联信息科技有限公司;,未经安徽清新互联信息科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510013041.9/2.html,转载请声明来源钻瓜专利网。