[发明专利]一种文档中空格识别方法及系统有效
| 申请号: | 201610843703.X | 申请日: | 2016-09-22 |
| 公开(公告)号: | CN106649213B | 公开(公告)日: | 2019-08-20 |
| 发明(设计)人: | 李云生;晏检平 | 申请(专利权)人: | 深圳万兴信息科技股份有限公司 |
| 主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27;G06F16/178 |
| 代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
| 地址: | 518057 广东省深圳市南山区高新*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文档 空格 识别 方法 系统 | ||
本发明适用于字符识别领域,提供了一种文档中空格识别方法及系统,包括:以文档中行或段为基础单位,分别采集每个所述基础单位内所有的相邻字符之间的空隙宽度值,得到每个所述基础单位对应的初始空隙宽度集合;将所述初始空隙宽度集合作为输入集合,通过空格阈值计算方法对输入集合进行处理,并将得出的空格阈值作为第一空格阈值;依次判断所述基础单位内各相邻字符之间的空隙宽度值是否大于所述第一空格阈值:若大于所述第一空格阈值,则判定该相邻字符间存在空格;若不大于所述第一空格阈值,则判定该相邻字符间不存在空格。无需使用固定的空格宽度来判断空格,使得导致文档中空格识别度得到了提高、识别结果更加准确可靠。
技术领域
本发明属于信息识别技术领域,尤其涉及一种文档中空格识别方法及系统。
背景技术
在将PDF(Portable Document Format,便携式文档格式)等格式文档转换为其他格式(如WORD、TXT等格式)的文档时,都要对文档中的字符进行识别,尤其是要对相邻字符间的空格进行判断,从而顺利地组词和断句。
文档中,相邻字符间空隙的产生有多个原因,如:存在空格、版面设置了字符间距、文字设置字距调整和独立的文本对象等原因。
现有技术中,采用以文档全文最小相邻字符间距为基础,将所有相邻字符间距减去全文最小相邻字符间距后判定是否小于预定的空格宽度。但现有技术中预定的的空格宽度本身就是无法确定的,且字符对齐方式也会影响空格宽度,这都会导致文档中空格识别度不高、识别结果不准确的问题。
发明内容
有鉴于此,本发明实施例提供了一种文档中空格识别方法及系统,以解决现有技术中文档中空格识别度不高、识别结果不准确的问题的问题。
第一方面,提供了一种文档中空格识别方法,包括:
以文档中行或段为基础单位,分别采集每个所述基础单位内所有的相邻字符之间的空隙宽度值,得到每个所述基础单位对应的初始空隙宽度集合;
将所述初始空隙宽度集合作为输入集合,通过空格阈值计算方法对输入集合进行处理,并将得出的空格阈值作为第一空格阈值;
依次判断所述基础单位内各相邻字符之间的空隙宽度值是否大于所述第一空格阈值:若大于所述第一空格阈值,则判定该相邻字符间存在空格;若不大于所述第一空格阈值,则判定该相邻字符间不存在空格。
进一步地,所述空格阈值计算方法包括:
分别计算输入集合的数学期望和标准差,并计算所述标准差与所述数学期望的比值;
判断所述比值是否小于设定阈值:
若所述比值小于设定阈值,则采用所述输入集合中最大空隙宽度值作为空格阈值,并输出所述空格阈值;
若所述比值不小于设定阈值,计算所述数学期望与三倍所述标准差之和,得到计算结果,删除所述输入集合中大于所述计算结果的所有所述空隙宽度值,并将删除后的所述输入集合重新通过所述空格阈值计算方法进行处理。
进一步地,所述分别采集每个所述基础单位内所有的相邻字符之间的空隙宽度值,得到每个所述基础单位对应的初始空隙宽度集合还包括:
若所述空隙宽度值中存在小于零的值时,删除小于零的所述空隙宽度值,得到所述初始空隙宽度集合。
进一步地,所述采集每个所述基础单位内所有的相邻字符之间的空隙宽度值包括:
根据相邻字符的原点位置,计算得出相邻字符之间的空隙宽度值。
进一步地,所述文档中空格识别方法还包括:
识别相邻字符之间存在的具体空格数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳万兴信息科技股份有限公司,未经深圳万兴信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610843703.X/2.html,转载请声明来源钻瓜专利网。





