[发明专利]横向校对和输出双层PDF的方法和装置有效
申请号: | 201310558843.9 | 申请日: | 2013-11-12 |
公开(公告)号: | CN103714047B | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 段雅东;陈永生;高志强 | 申请(专利权)人: | 北京中献电子技术开发中心 |
主分类号: | G06F17/25 | 分类号: | G06F17/25 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 吴贵明,张永明 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种横向校对和输出双层PDF的方法和装置,涉及文字处理领域。本发明实施例提供的方法,包括如下步骤从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;修改错误文字和修改文字位置;根据字符图像位置和大小输出双层PDF文件。本发明适用于文字校对、双层PDF文件加工系统。本发明为解决目前书籍资料电子化生成双层PDF过程中文字位置校正精度低、效率低的问题而发明。利用OCR识别的文字位置信息导入行图像和字符图像的位置,在文字校对的过程中,通过拆分、合并和调整字符图像位置,使输出的双层PDF文件文字层和图像层完全重合,相对之前的双层PDF生成方法,本发明大大减少了修改工作量,提高了双层PDF质量,以所见即所得的方式生成双层PDF文件。 | ||
搜索关键词: | 横向 校对 输出 双层 pdf 方法 装置 | ||
【主权项】:
一种横向校对和输出双层PDF的方法,包括以下步骤:步骤1:从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;步骤2:修改字符和字符图像位置;步骤3:根据字符图像位置和大小输出双层PDF文件;其中,所述步骤1的导入行图像和字符图像的位置,包括以下步骤:步骤1.1:根据每个字符在图像中的位置,分析出行图像,计算出行图像的位置;步骤1.2:根据每个字符在图像中的位置和所在行图像的位置,使用行图像的上下边界和字符图像左右边界形成的矩形框得到字符图像的位置;所述步骤2的修改字符和字符图像位置,包括以下步骤:步骤2.1:浏览字符图像和字符文字,查找错误字符和位置错误的文字图像;步骤2.2:对识别成多个字符结果的字符图像进行合并处理;对识别成单个字符结果的多个字符图像进行拆分处理;修改错误的文字;调整字符图像的位置和大小,其中,所述步骤2.1中,有以下几种显示方式:方式3.1:以图像为背景,文字行显示在图像行的上方或下方;方式3.2:以图像为背景,文字行和图像行完全重合;方式3.3:文字行和图像行交错显示;根据字符图像位置和大小输出双层PDF文件,包括:首先向PDF文件输出图像层;然后根据校对后字符图像位置,得到文本层的输出位置,根据字符图像外接矩形宽度得到文字大小,依据输出位置和文字大小,输出文本层,得到双层PDF文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中献电子技术开发中心,未经北京中献电子技术开发中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310558843.9/,转载请声明来源钻瓜专利网。
- 上一篇:便于检修和运输的地下设施
- 下一篇:防转吊钩