[发明专利]一种字符识别的处理方法和装置有效
| 申请号: | 201510410166.5 | 申请日: | 2015-07-13 | 
| 公开(公告)号: | CN106709489B | 公开(公告)日: | 2020-03-03 | 
| 发明(设计)人: | 周龙沙;王红法 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 | 
| 主分类号: | G06K9/32 | 分类号: | G06K9/32 | 
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 | 
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 字符 识别 处理 方法 装置 | ||
1.一种字符识别的处理方法,其特征在于,包括:
根据字符在页面上的高度信息将所述页面上的多个字符归属到所述页面上的多个行上,得到所述页面上的每一行包括的多个字符,所述字符在页面上的高度信息包括:该字符在所述页面上的纵坐标和该字符的高度范围;
从页面上的多个字符中任意选择一个字符作为当前字符,获取当前字符与相邻字符之间的字符间距;
若当前字符与相邻字符之间的字符间距小于或等于字符段分割距离,将当前字符和相邻字符划分到一个字符段中,若当前字符与相邻字符之间的字符间距大于字符段分割距离,将当前字符和相邻字符划分到两个不同的字符段中;
按照所述页面上字符之间在高度范围上的重叠信息对所述页面上的每个行包括的多个字符进行行校正,得到所述页面上的每一行包括的行校正后的多个字符;
使用语义分析模型对所述页面上的每一行包括的行校正后的多个字符进行语义校正;
其中,根据字符在页面上的高度信息将所述页面上的多个字符归属到所述页面上的多个行上,得到所述页面上的每一行包括的多个字符,包括:
从页面上的多个字符中任意选择一个字符作为当前字符,根据当前字符在页面上的高度信息计算当前字符的中心点在页面上的纵坐标,所述当前字符的中心点指的是字符在纵坐标方向上高度范围的中间值;
判断当前字符的中心点是否在当前字符的前一个字符的高度范围内,若当前字符的中心点在当前字符的前一个字符的高度范围内,则当前字符和前一个字符属于同一个行,若当前字符的中心点不在当前字符的前一个字符的高度范围内,则当前字符和前一个字符分别属于两个不同的行。
2.根据权利要求1所述的方法,其特征在于,所述按照所述页面上字符之间在高度范围上的重叠信息对所述页面上的每个行包括的多个字符进行行校正,包括:
从所述页面上的多个字符中任意选择一个字符作为当前字符,获取高度范围与所述当前字符的高度范围有重叠的多个字符;
若获取到的高度范围与所述当前字符的高度范围有重叠的多个字符都属于同一个行,则保持所述当前字符所在的行不变;
若获取到的高度范围与所述当前字符的高度范围有重叠的多个字符分别属于两个行,分别计算出两个行中高度范围与所述当前字符的高度范围有重叠的字符的个数,将所述当前字符所在的行确定为高度范围与所述当前字符的高度范围有重叠的字符的个数最多的行。
3.根据权利要求1所述的方法,其特征在于,所述根据字符在页面上的高度信息将所述页面上的多个字符归属到所述页面上的多个行上之前,所述方法还包括:
根据从所述页面上分割出的多个符号块识别出所述页面上的多个原始字符;
根据所述页面上每个原始字符的高度范围和宽度范围从所述页面上的所有原始字符中剔除掉过大字符或者过小字符,得到所述页面上的多个字符。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述多个字符段中每个字符段包括:行校正后的多个字符;
所述使用语义分析模型对所述页面上的每一行包括的行校正后的多个字符进行语义校正,包括:
使用语义分析模型对所述页面上的每一行中字符段内信息和字符段间信息分别进行语义校正。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510410166.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:根据指定位置进行图像识别的方法
 - 下一篇:一种字符识别方法和装置
 





