[发明专利]一种基于OCR字形相近文字识别方法有效
申请号: | 201811211186.X | 申请日: | 2018-10-17 |
公开(公告)号: | CN109447055B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 席敬;焦勇;伏虎 | 申请(专利权)人: | 中电万维信息技术有限责任公司 |
主分类号: | G06V30/14 | 分类号: | G06V30/14;G06V30/148;G06V30/19;G06V10/74;G06K9/62 |
代理公司: | 兰州嘉诺知识产权代理事务所(普通合伙) 62202 | 代理人: | 郭海 |
地址: | 730000 甘肃省兰州市城关*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ocr 字形 相近 文字 识别 方法 | ||
1.一种基于OCR字形相近文字识别方法,其特征在于包括如下步骤:
A、原始OCR图像预处理
对倾斜字符进行文本校正,对图片中的噪声去除,对图像对比度和Gamma校正转化为灰度图像;
B、图像文字检测
对预处理的灰度图像进行字符像素特征信息的提取,并采用CNN神经网络进行字符像素特征信息的提取将其转化为独热编码形式的特征向量,作为字符识别模块字符像素特征信息识别的依据;
C、识别计算
使用标准字库的不同字体作为训练样本n,标准字库的每种不同字体记为n1、n2……,计算出训练样本每种字体的欧氏距离Dn1、Dn2……, 字符识别模块采用google-Inception-v4构架,对待识别图像文字进行识别作为识别样本p,计算出识别样本p的欧式距离DP,使用如下公式计算出识别样本与不同字体训练样本对比阈值a,、……;
D、字符文本字体识别
选择对比阈值a1、a2……中0.4-0.6的一个训练样本,输出相对应的识别字符的文本和字体。
2.根据权利要求1所述一种基于OCR字形相近文字识别方法,其特征在于所述步骤B中对预处理的灰度图像进行字符像素特征信息的提取,通过水平分割和垂直分割将每个字符切割成大小为96*96像素。
3.根据权利要求1所述一种基于OCR字形相近文字识别方法,其特征在于所述步骤C中训练样本n用国标一级字库3755个字符的16种字体。
4.根据权利要求1所述一种基于OCR字形相近文字识别方法,其特征在于所述步骤D中选择对比阈值a1、a2……中最接近0.5的一个训练样本,输出相对应的识别字符的文本和字体。
5.根据权利要求1所述一种基于OCR字形相近文字识别方法,其特征在于所述步骤C中字符识别模块采用google-Inception-v4构架, 将5*5的二维卷积核拆分成1*5和5*1的一维卷积核。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司,未经中电万维信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811211186.X/1.html,转载请声明来源钻瓜专利网。