[发明专利]一种身份证信息的识别方法和装置在审
申请号: | 202010129302.4 | 申请日: | 2020-02-28 |
公开(公告)号: | CN111368693A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 冯程;吴昀蓁;易显维 | 申请(专利权)人: | 中国建设银行股份有限公司;建信金融科技有限责任公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F16/29;G06F16/245;G06N3/04 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;李阳 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 身份证 信息 识别 方法 装置 | ||
本发明公开了身份证信息的识别方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括接收身份证图片信息,获取目标栏位的切片;基于预设的字符集,将所述切片输入至识别模型中以得到对应的文本信息;其中,所述字符集为选取非重复字符集;根据预设的地址库,查找与所述文本信息匹配的地址信息,进而根据所述地址信息修正该文本信息并输出。从而,本发明的实施方式能够解决现有针对身份证住址和签发机关栏位识别效率低下的问题。
技术领域
本发明涉及计算机技术领域,尤其涉及一种身份证信息的识别方法和装置。
背景技术
传统的身份证OCR识别过程一般包括文本检测和文本识别两个步骤。文本检测是指框出含有文本的区域,文本识别是指识别水平文本行。在进行识别时,需要给定字符集,通常在选取字符集时会采用常用汉字集合,该集合的字符个数为3755个。
其中,OCR英文全称是Optical Character Recognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。身份证OCR识别是指将身份证栏位中的文字,通过OCR的方法识别出来的过程。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
在对身份证住址和签发机关栏位进行识别时,由于住址常常包括一些生僻字,并不包括在常用字符集中,而包括全部生僻字的汉字集的字符个数为9000多个。在使用模型进行身份证识别之前需要对模型进行训练,而基于前述情况不仅模型训练速度慢也很难训练出来,进而导致身份证住址和签发机关栏位识别效率很低。
另外,模型是指数据中存在的某种潜在的规律,模型训练是指找出这种规律的过程,也称为“学习”,这一过程通过执行某一学习算法来完成训。训练过程使用的数据称为“训练数据”,其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”。训练出模型所需要的时间的长短为模型训练速度。
发明内容
有鉴于此,本发明实施例提供一种身份证信息的识别方法和装置,能够解决现有针对身份证住址和签发机关栏位识别效率低下的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种身份证信息的识别方法,包括接收身份证图片信息,获取目标栏位的切片;基于预设的字符集,将所述切片输入至识别模型中以得到对应的文本信息;其中,所述字符集为选取非重复字符集;根据预设的地址库,查找与所述文本信息匹配的地址信息,进而根据所述地址信息修正该文本信息并输出。
可选地,选取非重复字符集,包括:
建立python列表,遍历识别模型的训练集中的每一个样本;
对每一个样本切成为单个字符,放入python列表中,以通过python的unique函数得到非重复字符集。
可选地,还包括:
将字符集存储为文本文件,以供调用。
可选地,获取目标栏位的切片,包括:
根据目标栏位的区域坐标,在身份证图片上截取切片。
可选地,包括:
识别模型采用CRNN模型。
可选地,查找与所述文本信息匹配的地址信息,包括:
基于预设的地址词典,将文本信息进行编码;
根据编码后的文本信息,计算与地址库中地址信息对应编码之间的余弦相似度,得到余弦相似度最高的地址信息。
可选地,计算与地址库中地址信息对应编码之间的余弦相似度之后,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司;建信金融科技有限责任公司,未经中国建设银行股份有限公司;建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010129302.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置