[发明专利]针对印刷字体的ocr中字体分割错误的纠正方法在审

专利信息
申请号: 201810741477.3 申请日: 2018-07-05
公开(公告)号: CN110688882A 公开(公告)日: 2020-01-14
发明(设计)人: 袭喜悦;杨公所 申请(专利权)人: 山东华软金盾软件股份有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/34
代理公司: 11641 北京金宏来专利代理事务所(特殊普通合伙) 代理人: 许振强;苗彩娟
地址: 250000 山东省济南市高新区舜华路1号齐鲁软*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 针对印刷字体的ocr中字体分割错误的纠正方法,本发明使用水平投影算法,对文字进行分割,将分割好的行进行垂直投影,分割出每个文字,输入分割好的单行文字,在分割之前的二值化处理时,通过以下算法计算出一个阈值:取行分割之后有效像素最多的一行,然后取一个阈值执行二值化操作,再对其进行垂直投影计算,统计该行有效分割的字符数量,在一定范围内重复该操作,取分割数量最多时对应的阈值为最终分割时使用的二值化阈值;本发明提供的纠正方法提高了处理速度,节省了时间,而且在处理中英文混合的图片时不会影响正常的文字分割,提高了对整个OCR的识别率,而且适应场景更多,实用性强。
搜索关键词: 分割 垂直投影 二值化操作 二值化处理 水平投影 算法计算 文字分割 印刷字体 有效像素 二值化 识别率 行分割 中英文 纠正 算法 字体 场景 重复 统计 图片
【主权项】:
1.针对印刷字体的ocr中字体分割错误的纠正方法,其特征在于,其步骤如下:步骤一:使用水平投影算法,对文字进行分割,将分割好的行进行垂直投影,分割出每个文字,输入分割好的单行文字,在分割之前的二值化处理时,通过以下算法计算出一个阈值:取行分割之后有效像素最多的一行,然后取一个阈值执行二值化操作,再对其进行垂直投影计算,统计该行有效分割的字符数量,在一定范围内重复该操作,取分割数量最多时对应的阈值为最终分割时使用的二值化阈值;/n步骤二:按顺序取出一个字符通过模型判断输入的数据类型是汉字还是字母、数字,如果是字母或者数字则直接执行步骤八,如果是其他的则执行步骤三;/n步骤三:通过计算输入字符像素的大小比例判断是否为一个完整的汉字,如果是则执行步骤八,如果不是则执行步骤四;/n步骤四:判断当前字符是否为最后一个字符,如果是则执行步骤六,否则执行步骤五;/n步骤五:从输入的字符行中取出当前字符数据的下一个数据,结合在一块判断是否组合为一个完整的汉字结构,如果是则执行步骤八,否则执行步骤六;/n步骤六:判断是否为最后一个字符,如果是则执行步骤八,否则执行步骤七;/n步骤七:按照顺序取下一个字符数据与步骤五中已经组合在一起的前两个字符进行组合然后执行步骤八;/n步骤八:把分割好的字符数据输入识别模型进行识别,重复步骤二到步骤七操作,直到识别完最后一个字符。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东华软金盾软件股份有限公司,未经山东华软金盾软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810741477.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top