[发明专利]双层PDF文件的构造方法及装置有效
申请号: | 201110256474.9 | 申请日: | 2011-08-31 |
公开(公告)号: | CN102968407A | 公开(公告)日: | 2013-03-13 |
发明(设计)人: | 王晓健 | 申请(专利权)人: | 汉王科技股份有限公司 |
主分类号: | G06F17/25 | 分类号: | G06F17/25 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 双层 pdf 文件 构造 方法 装置 | ||
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种双层PDF文件的构造方法及装置。
背景技术
双层PDF(Portable Document Format,便携文件格式)文件是一种具有多层结构的PDF格式文件,其文件内容既包含文本层,也包含图像层,且文本层与图像层的位置上下一一相对应。双层PDF文件是指将纸质资料等通过扫描仪得到扫描图像后,经过去污、纠偏和OCR(Optical Character Recognition,光学字符识别)识别,然后直接生成可以检索的PDF文件。这个PDF文件是双层的,上层是原始图像,下层是识别结果,从而可以100%保留原始版面效果,并且支持选择/复制/检索等功能,便于建立索引数据库,进行科学的管理。
然而,采用现有的双层PDF文件构造方法,将古代书籍等刻板印刷的字体制作成双层PDF文件时,由于现代字库中没有这些刻板印刷的字体相应的字符模型,因而,在将上述古代书籍制作得到的双层PDF文件进行显示时,无法准确确定这些刻板印刷的字体对应字块的大小,使得这些刻板印刷的字体在显示时非常不协调,破坏了版面的一致性,降低了双层PDF文件的显示质量。
发明内容
本发明的实施例提供一种双层PDF文件的构造方法及装置,提高了双层PDF文件的显示质量。
为达到上述目的,本发明的实施例采用如下技术方案:
一种双层PDF文件的构造方法,包括:
获取原始文字资料经过扫描、OCR识别后的文字图像中的各字符;
根据文字图像中的各字符中指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;
根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;
按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。
一种双层PDF文件的构造装置,包括:
获取单元,用于获取原始文字资料经过扫描、OCR识别后的文字图像中的每个字符;
第一计算单元,用于根据文字图像中的各字符中指定的参考字符计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;
第二计算单元,用于根据所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和所述文字图像中的每个字符的原始大小计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;
生成单元,用于按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。
由上述技术方案所描述的本发明实施例中,通过计算所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小和目标显示位置;并计算所述文字图像中的每个字符对应的横向拉伸系数和纵向拉伸系数;按照所述文字图像中的每个字符在双层PDF文件上对应的目标字符大小、目标显示位置、横向拉伸系数和纵向拉伸系数生成所述双层PDF文件。由于在生成所述双层PDF文件时,可以按照横向拉伸系数和纵向拉伸系数对字符进行处理,实现了字符横向和纵向不同比例的拉伸,进而使得PDF上的字符模型能够尽可能逼近纸质资料上字符的样式,提高了双层PDF文件的显示质量。特别地,对于古代书籍中特殊字符的还原具有重要意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供一种双层PDF文件的构造方法的流程图;
图2为本发明实施例1提供一种双层PDF文件的构造方法的实现示意图;
图3为本发明实施例1提供另一种双层PDF文件的构造方法的流程图;
图4为本发明实施例2提供一种双层PDF文件的构造装置的结构图;
图5为本发明实施例2提供另一种双层PDF文件的构造装置的结构图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉王科技股份有限公司,未经汉王科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110256474.9/2.html,转载请声明来源钻瓜专利网。