[发明专利]横向校对和输出双层PDF的方法和装置有效
申请号: | 201310558843.9 | 申请日: | 2013-11-12 |
公开(公告)号: | CN103714047B | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 段雅东;陈永生;高志强 | 申请(专利权)人: | 北京中献电子技术开发中心 |
主分类号: | G06F17/25 | 分类号: | G06F17/25 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 吴贵明,张永明 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 横向 校对 输出 双层 pdf 方法 装置 | ||
技术领域
本发明属于文字处理领域,涉及一种数据校对和输出双层PDF的方法和装置,具体涉及一种横向校对和输出双层PDF的方法和装置。
背景技术
一个完整的数据校对和输出双层PDF的系统分为以下部分:纸质资料的扫描、图像处理、图像版面分析、字符识别、横向校对、输出双层PDF、修改PDF文字层字符大小和位置。
横向校对就是以字符为背景,调用字符所对应的图像与字符进行比对,同时,以颜色标记识别可信度和修改过的文字。由于以字符为背景,无法在校对过程中修改字符图像拆分错误和调整字符图像精度,使输出的双层PDF文件文字层和图像层对应的精度低,字符大小不准确。后期使用其他工具修改字符大小和位置的工作量非常大。
发明内容
本发明所要解决的技术问题是提出一种横向校对方法和装置,将对于文档中识别转换时拆分错误的字符图像进行合并和拆分,调整字符图像位置,使字符位置和字符图像位置一一精确对应,使输出的双层PDF文件和该装置校对时的效果达到所见即所得的效果。提高了校对效率和输出精度。
本发明公开了一种横向校对和输出双层PDF的方法,包括以下步骤:
步骤1:从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;
步骤2:修改字符和字符图像位置;
步骤3:根据字符图像位置和大小输出双层PDF文件;
所述步骤1包括以下步骤:
步骤1.1:根据每个字符在图像中的位置,分析出行图像,计算出行图像的位置。
步骤1.2:根据每个字符在图像中的位置和所在行图像的位置,使用行图像的上下边界和字符图像左右边界形成的矩形框得到字符图像的位置。
所述步骤2包括以下步骤:
步骤2.1:浏览字符图像和字符文字,查找错误字符和位置错误的文字图像;
步骤2.2:对识别成多个字符结果的字符图像进行合并处理;对识别成单个字符结果的多个字符图像进行拆分处理;修改错误的文字;调整字符图像的位置和大小;
所述步骤2.1中,有以下几种显示方式:
方式3.1:以图像为背景,文字行显示在图像行的上方或下方;
方式3.2:以图像为背景,文字行和图像行完全重合;
方式3.3:文字行和图像行交错显示;
所述步骤2.1中,文字行和图像行有以下几种对齐方式:
方式4.1:文字行中每个字符相对于图像行中的字符图像居中对齐;
方式4.2:文字行整行相对于图像行居中对齐;
所述步骤2.2的合并处理是:合并所述多个字符结果的外接矩形,得到正确的字符图像。
所述步骤2.2的拆分处理是:将选中的字符图像外接矩形分成左右两个字符图像。
所述步骤2.2的调整字符图像的位置和大小是:调整字符图像的外接矩形的大小和位置,选中字符图像,调整外接矩形框的宽度、高度或者位置。
所述步骤3中输出双层PDF文件时根据行图像高度计算字体大小,根据文字图像中心位置计算输出字符的中心位置。
本发明还公开了一种横向校对和输出双层PDF的装置,其特征在于:包括以下模块:
输入模块,从OCR识别引擎记录的每个字符在图像中的外接矩形的位置导入行图像和字符图像的位置;
校对模块,修改字符和字符图像位置;
输出模块,根据字符图像位置和大小输出双层PDF文件。
OCR识别过程中,存在文字识别错误和文字图像拆分错误,一个字符图像被识别成多个字符,多个字符图像被识别成一个字符。传统的校对方式是以识别后的文字为背景,只能修改识别错误的文字,无法修改文字和图像的对应关系。本发明横向校对和输出双层PDF的方法和装置的优点在于:在横向校对时以图像为背景,提取每个文字图像行对应的字符行进行校对,校对过程中可以相对于每个字符图像对齐显示字符,可以拆分、合并和调整文字对应的图像位置。在输出双层PDF时,使用文字对应的图像的大小计算文字大小和位置输出。使输出的双层PDF文件和该装置校对时的效果达到所见即所得的效果。提高了校对效率和输出精度。
附图说明
图1为本发明横向校对方法和输出双层PDF的流程图;
图2为本发明横向校对和输出双层PDF方法在拆分前显示状态图;
图3为本发明横向校对和输出双层PDF方法在拆分后显示状态图;
图4为本发明横向校对和输出双层PDF方法在合并前显示状态图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中献电子技术开发中心,未经北京中献电子技术开发中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310558843.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:便于检修和运输的地下设施
- 下一篇:防转吊钩