[发明专利]一种基于机器学习的身份证图像文本识别方法在审
| 申请号: | 201710416957.8 | 申请日: | 2017-06-06 |
| 公开(公告)号: | CN107247950A | 公开(公告)日: | 2017-10-13 |
| 发明(设计)人: | 屈鸿;黄鹂;高榕;刘永胜;张翮;史冬霞;陈珊;汪一文 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46;G06K9/62 |
| 代理公司: | 成都弘毅天承知识产权代理有限公司51230 | 代理人: | 徐金琼,刘东 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 机器 学习 身份证 图像 文本 识别 方法 | ||
1.一种基于机器学习的身份证图像文本识别方法,其特征在于,包括以下步骤:
步骤1、将获取的拍摄的图像进行预处理,将预处理后的图像中的身份证图像和复杂的背景图像区分开;
步骤2、对检测出来的身份证图像进行文字区域检测,然后对检测出来的文字区域进行文字切割,得到一个一个文字;
步骤3、基于深度学习的字符识别模型对切分出来的文字进行识别,输出识别出来的结果。
2.根据权利要求1所述的一种基于机器学习的身份证图像文本识别方法,其特征在于:所述步骤1中的具体步骤如下:
(11)、采用高斯模糊和灰度化来对拍摄的图像进行预处理;
(12)、对步骤(11)进行预处理后的图像,使用Canny算子和Sobel算子进行身份证边缘检测;
(13)、使用二值化和比操作将步骤(12)检测出来的身份证边缘包围的区域切分出来,得到身份证图像区域;
(14)、使用SVM分类器将身份证图像区域进行轮廓挑选,得到正确的身份证轮廓图像;
(15)、将步骤(14)得到的不规则的偏转的图像,利用霍夫变换和透视变换将进行纠正。
3.根据权利要求1所述的一种基于机器学习的身份证图像文本识别方法,其特征在于:所述步骤2的具体步骤如下:
(21)、构建一个级联三个自编码器得到的高层特征的网络,根据高层特征的网络从像素级别进行判定像素点是否为文字区域,取出精确的文字区域;具体步骤为:
(211)、第一个自编码器从给定的所有的训练图片中随机取出500k个尺寸为5*5的块作为输入,设为x(1),则x(1)∈R75,R代表实数空间,R75定义x是一个维度为75的向量;将输入的500k个尺寸为5*5的块通过多次实验效果决定隐层神经元个数,最终定隐层神经元个数为40,再将输入的500k个尺寸为5*5的块和隐层神经元个数经过自编码器训练,网络收敛后得到第一个自编码器编码部分的结果f(1),f(1)∈40;
(212)、第二个自编码器从步骤(211)得到的特征图矩阵中随机取出500k个尺寸为3*3的块作为输入,设为x(2),令“+”表示x(2)是由9个x(1)直接串联而成,w指权重,x(2)∈360,取第二个自编码器的隐层神经元个数为30个,将500k个尺寸为3*3的块和隐层神经元个数经过自编码器训练,得到第二个自编码器编码部分的结果f(2),f(2)∈30;
(213)、第三个自编码器从步骤(212)得到的特征图矩阵中随机取出200k个尺寸为3*3的块作为输入,设为x(3)),x(3)∈270,其中,3*3的块内的每小块有5个像素点和下一个小块重叠,取第三个自编码器的隐层神经元为20个,将200k个尺寸为3*3的块和隐层神经元个数经过自编码器训练完成后,得到第三个自编码器编码部分的结果f(3),f(3)∈20;
(214)、根据步骤(211)-步骤(213)得到一个5*5的块的中心点的三种特征,令f=f(1)+f(2)+f(3),“+”表示直接串联,形成一个90维的混合特征,将90维的混合特征放入SVM模型进行分类训练,最终得到一个SVM分类模型,训练完毕后,SVM分类模型对步骤1区分开的身份证图像进行扫描,判断每个像素点是否是文字区域的一部分,从而取出精确的文字区域;
(22)、取出精确的文字区域,进行字符切分;具体步骤如下:
(221)、将精确的文字区域中汉字平均宽度W1和数字平均宽度W2统计出来作为切分标准;
(222)、将扫描到的第一个文字区域的起始点和结束点的文字区域宽度记录下来,若切分的文字区域宽度近似于标准文字平均宽度将切分的文字区域视为一个汉字;若不是则转到步骤(223);
(223)、若文字区域宽度远小于数字平均宽度则为噪声,则放弃该区域;若文字区域宽度接近数字平均宽度,则将文字区域交给一个训练好的SVM数字分类器判断是否为数字,如果是数字即扫描下一个文字区域,否则转到步骤(224);
(224)、将检视当前文字区域的右侧,尝试将两个区域联系起来,再次判断联系起来的两个区域是否为汉字或数字,若仍不为汉字或数字,再尝试合并上一合并区域的右侧进行汉字或数字判断。
4.根据权利要求1所述的一种基于机器学习的身份证图像文本识别技术,其特征在于:所述步骤3的具体步骤如下:
(31)、构建识别字符的网络模型,该网络模型由输入层,多个卷积层,多个采样层,全连接层和输出层组成;
(32)、使用搜集好的训练数据集训练出一套网络模型的网络权重参数;
(33)、采用训练好网络权重参数的网络模型对切分出的文字进行识别,输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710416957.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于深度学习的人脸检测速度优化方法及装置
- 下一篇:一种可复制文字笔





