[发明专利]用于校对的标记同步方法、计算设备及计算机存储介质有效
申请号: | 201810730039.7 | 申请日: | 2018-07-05 |
公开(公告)号: | CN108921103B | 公开(公告)日: | 2019-04-16 |
发明(设计)人: | 张恒;李铭瀚 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/34 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 校对 计算机存储介质 计算设备 关系保持 结果字典 校对过程 字符信息 准确度 同步的 标签 便利 记录 | ||
本发明公开了一种用于校对的标记同步方法、计算设备及计算机存储介质,方法包括:对第一文档进行识别,将各个字符的字符信息及其键值对应记录到识别结果字典中;得到第二文档,并为第二文档的各个字符建立标签;建立第一文档的字符与第二文档的字符的对应关系;利用对应关系保持校对过程中第一文档的特定字符与第二文档的特定字符的标记同步。本发明提供了一种全新的用于校对的标记同步方案,通过建立第一文档和第二文档中的各个字符的对应关系,使得第一文档和第二文档中当前正在校对的特定字符可以标记同步。利用本发明方案,用户可以根据同步的标记进行校对,为校对工作提供了便利,降低了校对的难度,进而有利于提升校对的准确度和效率。
技术领域
本发明涉及文件处理技术领域,具体涉及一种用于校对的标记同步方法、计算设备及计算机存储介质。
背景技术
版式文档是指版面呈现效果固定的电子文档,其呈现效果不因软硬件环境、操作者的变化而变化,在版式、版面、字体、字号等方面与纸质文件保持完全一致,版式文档的这些特点使它成为电子文档发布、数字化信息传播和存档的理想文档格式。在业内,较为典型的版式文档包括Adobe公司的PDF版式文档。
与此同时,由于版式文档的上述特点,使得版式文档的文档内容不能适应于阅读设备的特性,以最适于阅读的排版形式显示出来。因此,为了能够适应不同的阅读设备进行显示,需要获取版式文档的源内容,然后根据该源内容生成流文档。
但是,由于各种客观原因的存在,导致大量版式文档的源内容无法直接获取到,此时,则须采用图片文字识别技术,对版式文档中的文档内容进行转取。例如,采用OCR识别技术对PDF图片中的内容进行识别。然而,由于图片文字识别技术的识别准确率有限,通常情况下,在得到识别结果之后,需要人工对识别结果进行校对,以提高最终显示在阅读设备上的文本内容的准确性。
现有技术中,一般是由校对人员通过肉眼查找识别结果和版式文档中的对应内容,并进行逐字校对,这种校对方式容易造成校对错误,并且校对效率低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用于校对的标记同步方法、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种用于校对的标记同步方法,包括:
对第一文档进行识别,将识别结果中的各个字符的字符信息及其键值对应记录到识别结果字典中;其中,字符信息包括字符文本和字符位置;
根据所述识别结果,得到第二文档,并为所述第二文档的各个字符建立标签;
根据识别结果字典中各个字符的键值建立第一文档的字符与第二文档的字符的对应关系;
利用所述对应关系保持校对过程中第一文档的特定字符与第二文档的特定字符的标记同步。
根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
对第一文档进行识别,将识别结果中的各个字符的字符信息及其键值对应记录到识别结果字典中;其中,字符信息包括字符文本和字符位置;
根据所述识别结果,得到第二文档,并为所述第二文档的各个字符建立标签;
根据识别结果字典中各个字符的键值建立第一文档的字符与第二文档的字符的对应关系;
利用所述对应关系保持校对过程中第一文档的特定字符与第二文档的特定字符的标记同步。
根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810730039.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:3D影像的处理方法及装置
- 下一篇:基于人脸识别的流动人群视频监控方法