[发明专利]一种识别PDF文件中的空格的方法有效
申请号: | 201210455707.2 | 申请日: | 2012-11-14 |
公开(公告)号: | CN103810148A | 公开(公告)日: | 2014-05-21 |
发明(设计)人: | 周美玲 | 申请(专利权)人: | 福建福昕软件开发股份有限公司北京分公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京科龙寰宇知识产权代理有限责任公司 11139 | 代理人: | 孙皓晨 |
地址: | 100098 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 pdf 文件 中的 空格 方法 | ||
技术领域
本发明涉及识别PDF文件中的字符的技术领域,特别是涉及一种识别PDF文件中的空格的方法。
背景技术
在将PDF文件转换为其他格式(如WORD、TXT等格式)的文件时,都要对PDF文件中的字符进行识别,尤其是要对相邻字符间的空格进行判断,从而顺利地组词和断句。
PDF文件中,相邻字符间空隙的产生有两个原因,一是因为存在空格所以产生空隙,二是因为版面设置了字符间距所以产生空隙。现有的识别PDF文件中的空格的技术,是判断每对相邻字符之间的距离是否小于预知的空格宽度,是则判断该对相邻字符之间不存在空格,否则判断该对相邻字符间存在空格,进而在转换后的文件中在该对相邻字符之间设置空格。
现有技术的缺点在于:当PDF文件中的字符间距设置得过大,例如其大于空格宽度时,该技术会将所有只存在字符间距而没有空格的空隙全部判断为存在空格,这样就会造成组词和断句的大量错误,严重影响格式转换的质量。一个简单的示例如图1所示,该图中由两个单词“Character”和“spacing”组成了连贯的“Character spacing”词组,但仅在“Character”最后的“r”字符和“spacing”中的“s”字符之间存在空格(该空隙实际上是一个空格与一个字符间距的叠加),其余的相邻字符之间的空隙全部为字符间距,但是由于该字符间距要大于空格宽度,因而利用现有技术识别后,这个词组将在转换后的文件中变成包括16个字母字符和15个空格的字符串“Characterspacing”,从而造成严重的转换失误。
发明内容
本发明所要解决的技术问题是提供一种识别PDF文件中的空格的方法,能提高相邻字符之间是否存在空格的判断准确率。
本发明解决上述技术问题的技术方案如下:一种识别PDF文件中的空格的方法,该方法包括:
步骤1:遍历所述PDF文件,记录各对相邻字符之间的距离;
步骤2:确定各对相邻字符之间的距离中的最小值h;
步骤3:用各对相邻字符之间的距离减去h,得到各对相邻字符之间的相对距离;
步骤4:依次判断各对相邻字符之间的相对距离是否小于预知的空格宽度,是则该对相邻字符之间的空隙不是空格,否则,该对相邻字符之间的空隙包括空格。
本发明的有益效果是:本发明通过便利PDF文件,记录各对相邻字符之间的距离,进而确定各对相邻字符之间的距离中的最小值h,将其作为字符间距的标准,这是因为,相邻字符间的空隙只能为一个字符间距组成,或者由一个字符间距与一个以上的空格组成,因而字符间距h是相邻字符间的距离的最小值。本发明用各对相邻字符之间的距离减去h,得到各对相邻字符之间的相对距离,该相对距离或者小于空格宽度,这是该对相邻字符之间不存在空格的情形,或者不小于空格宽度,这是该对相邻字符之间存在空格的情形。因此,本发明通过依次判断各对相邻字符之间的相对距离是否小于预知的空格宽度,即可剔除相邻字符之间的空隙为字符间距的情形,准确确定各对相邻字符之间的空隙是否为空格,从而大大提高相邻字符之间是否存在空格的判断准确率。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步,在所述步骤4之后,还包括步骤5:将二者之间的空隙包括空格的相邻字符称为包含空格的相邻字符;用各对所述包含空格的相邻字符之间的相对距离除以所述空格宽度,将得到的商值的整数部分作为该对所述包含空格的相邻字符之间的空格的数量。
附图说明
图1为字符间距过大的PDF文件的示意图;
图2为本发明提出的识别PDF文件中的空格的方法的流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图2为本发明提出的识别PDF文件中的空格的方法的流程图。这里,PDF是PortableDocument Format的缩写,意为便携文件格式,是一种电子文件格式,PDF文件指的是采用PDF格式的电子文件。本发明中,PDF文件中的字符可以为字母、数字、汉字、空格、标点等一切可以采用的字符形式。
如图2所示,该方法包括:
步骤201:遍历PDF文件,记录各对相邻字符之间的距离。
本步骤中的“遍历”是一种计算机运算形式,指的是沿着某条搜索路线,依次对树中每个结点均做一次且仅做一次访问。遍历的方法以及上述的“树”的概念属于计算机领域的公知常识,在此不做赘述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建福昕软件开发股份有限公司北京分公司,未经福建福昕软件开发股份有限公司北京分公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210455707.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:生成单据的方法及系统
- 下一篇:计算机集群、用于计算机集群的管理方法及系统