[发明专利]一种字符分割方法及终端在审
| 申请号: | 201910208497.9 | 申请日: | 2019-03-19 |
| 公开(公告)号: | CN109948620A | 公开(公告)日: | 2019-06-28 |
| 发明(设计)人: | 庄国金;郝占龙;陈文传;杜保发;林玉玲;吴建杭;方恒凯 | 申请(专利权)人: | 厦门商集网络科技有限责任公司 |
| 主分类号: | G06K9/34 | 分类号: | G06K9/34 |
| 代理公司: | 福州科扬专利事务所 35001 | 代理人: | 何小星 |
| 地址: | 361101 福建省厦*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 字符分割 字符图像 预设 集合 置信度 终端 数据处理领域 垂直投影 字符组成 调用 引擎 合并 分割 | ||
本发明涉及一种字符分割方法及终端,属于数据处理领域。本发明通过采用垂直投影法分割字符图像中的字符,得到字符有序集合;当第一字符的宽度小于预设的下限值时,获取所述字符图像中与所述第一字符相邻的字符,得到第二字符;所述第一字符为所述字符有序集合中的一字符;调用OCR识别引擎识别第三字符,得到第一OCR识别结果;所述第三字符由所述第一字符和所述第二字符组成;若所述第一OCR识别结果的置信度大于预设的置信度阈值,且所述第三字符的宽度小于预设的上限值,则合并所述字符有序集合中的所述第一字符和所述第二字符。实现提高对同时包含多种类型字符的字符图像进行字符分割的准确性。
技术领域
本发明涉及一种字符分割方法及终端,属于数据处理领域。
背景技术
申请号为201810175856.0的专利文献公开了一种字符分割位置的确定、字符分割方法、装置及设备,所述字符分割位置的确定方法包括:根据待分割字符串图像中包括的至少一个粘连子串、所述粘连子串的宽度以及单个字符的平均宽度,确定与所述粘连子串中包括的各字符对应的目标分割位置;根据字符间粘连区域的属性信息,确定与所述粘连子串对应的至少一个备选分割位置;根据所述粘连子串的边界位置、与所述粘连子串对应的至少一个备选分割位置,以及预设更新条件,对所述目标分割位置进行更新,解决现有分割法对粘连字符的分割效果不佳及存在漏分、错分的问题,从而提高粘连字符的分割准确率,提升粘连字符的分割效果。
但是,上述专利文献提供的字符分割方法中是否采用备选分割位置必须要满足条件:上一个确定的目标分割位置对应的区域宽度与当前目标备选分割位置对应的区域宽度的差在第一预设范围内。即上述专利文献适用于对字符宽度相似的字符图像进行字符分割,对于一个字符图像中同时包含汉字、英文和数字等字符宽度不一的应用场景,其分割效果较差。
发明内容
本发明所要解决的技术问题是:如何提高对同时包含多种类型字符的字符图像进行字符分割的准确性。
为了解决上述技术问题,本发明采用的技术方案为:
本发明提供一种字符分割方法,包括:
采用垂直投影法分割字符图像中的字符,得到字符有序集合;
当第一字符的宽度小于预设的下限值时,获取所述字符图像中与所述第一字符相邻的字符,得到第二字符;所述第一字符为所述字符有序集合中的一字符;
调用OCR识别引擎识别第三字符,得到第一OCR识别结果;所述第三字符由所述第一字符和所述第二字符组成;
若所述第一OCR识别结果的置信度大于预设的置信度阈值,且所述第三字符的宽度小于预设的上限值,则合并所述字符有序集合中的所述第一字符和所述第二字符。
优选地,还包括:
当第四字符的宽度大于所述预设的上限值时,获取第五字符和第六字符;所述第四字符为所述字符有序集合中的一字符;所述第四字符由所述第五字符和所述第六字符组成;
调用OCR识别引擎识别所述第五字符,得到第二识别结果;
调用OCR识别引擎识别所述第六字符,得到第三识别结果;
若所述第二识别结果的置信度和所述第三识别结果的置信度均大于所述预设的置信度阈值,则将所述字符有序集合中的所述第四字符分割成所述第五字符和所述第六字符。
优选地,获取所述预设的上限值和下限值的步骤为:
统计所述字符有序集合的平均字符宽度;
所述上限值为所述平均字符宽度的1.2倍;
所述下限值为所述平均字符宽度的80%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门商集网络科技有限责任公司,未经厦门商集网络科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910208497.9/2.html,转载请声明来源钻瓜专利网。





