[发明专利]一种基于OCR字形相近文字识别方法有效

申请号：	201811211186.X	申请日：	2018-10-17
公开（公告）号：	CN109447055B	公开（公告）日：	2022-05-03
发明（设计）人：	席敬;焦勇;伏虎	申请（专利权）人：	中电万维信息技术有限责任公司
主分类号：	G06V30/14	分类号：	G06V30/14;G06V30/148;G06V30/19;G06V10/74;G06K9/62
代理公司：	兰州嘉诺知识产权代理事务所(普通合伙) 62202	代理人：	郭海
地址：	730000 甘肃省兰州市城关***	国省代码：	甘肃;62
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 ocr 字形相近文字识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及计算机技术领域，特别是涉及模式识别和深度学习领域，更具体地涉及一种基于OCR字形相近文字识别方法。改变传统字形识别方式，对字符文本和字体均可进行识别，通过多样本对比并加入阈值筛选，不仅大幅提升文本识别准确性，而且有效识别字符字体。特别适合相似字形和相似字体的字符识别，实现字形和字体的双重准确识别。通过水平分割和垂直分割将每个字符切割成大小为96*96像素，便于像素特征信息的提取，避免相邻文字间相互干扰，有效提升识别效率，本发明设计人员将书籍、报纸、衣服和截屏等多种图片中每个字符切割成96*96像素进行字符像素特征信息的提取，提取率接近100%。

技术领域

本发明涉及计算机技术领域，特别是涉及模式识别和深度学习领域，更具体地涉及一种基于OCR字形相近文字识别方法。

背景技术

光学字符识别（Optical Character Recognition，简称OCR）是结合光学技术和计算机技术将印在纸上的图像文件转化为文本文件的一种方式，OCR识别可用于银行票据、大量文献资料、档案卷宗、税务单等票据的自动扫描和长期存储。

OCR识别通常以识别率、识别速度、版面理解和版面重构度作为衡量的技术标准。该技术对一般字符有比较好的识别率，但是对于结构和字形丰富的汉字领域还存在一定的技术难题，特别是对于字形相近，如：（午、干、干）、（跑、泡、炮）等字符存在识别效率低下和精度不高的问题。此外现有技术对字符的相同字形不同字体无法判断,相同字形不同字体进行识别时非常容易发生错误，多次反复识别结果不一，有时需要人工介入纠错，大幅降低识别准确性。

发明内容

本发明提供一种识别率高、识别快捷和精度高的基于OCR字形相近文字识别方法。

本发明解决其技术问题所采用的技术方案为：

一种基于OCR字形相近文字识别方法，包括如下步骤:

A、原始OCR图像预处理

对倾斜字符进行文本校正，对图片中的噪声去除，对图像对比度和Gamma校正转化为灰度图像；

B、图像文字检测

对预处理的灰度图像进行字符像素特征信息的提取，并采用CNN神经网络进行字符像素特征信息的提取将其转化为独热编码形式的特征向量，作为字符识别模块字符像素特征信息识别的依据；

C、识别计算

使用标准字库的不同字体作为训练样本n,标准字库的每种不同字体记为n₁、n₂……，计算出训练样本每种字体的欧氏距离D_n1、D_n2……_, 字符识别模块采用google-Inception-v4构架,对待识别图像文字进行识别作为识别样本p,计算出识别样本p的欧式距离D_P,使用如下公式计算出识别样本与不同字体训练样本对比阈值a，、……；

D、字符文本字体识别

选择对比阈值a₁、a₂……中0.4-0.6的一个训练样本，输出相对应的识别字符的文本和字体。

所述步骤B中对预处理的灰度图像进行字符像素特征信息的提取，通过水平分割和垂直分割将每个字符切割成大小为96*96像素。

所述步骤C中训练样本n用国标一级字库3755个字符的16种字体。

所述步骤D中选择对比阈值a₁、a₂……中最接近0.5的一个训练样本，输出相对应的识别字符的文本和字体。

所述步骤C中字符识别模块采用google-Inception-v4构架, 将5*5的二维卷积核拆分成1*5和5*1的一维卷积核。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司，未经中电万维信息技术有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811211186.X/2.html，转载请声明来源钻瓜专利网。