[发明专利]一种图文识别人工校对辅助方法及系统无效
申请号: | 201010572581.8 | 申请日: | 2010-11-30 |
公开(公告)号: | CN102479326A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 吴建宇 | 申请(专利权)人: | 方正国际软件(北京)有限公司;方正国际软件有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F17/27 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图文 识别 人工 校对 辅助 方法 系统 | ||
技术领域
本发明属于校对技术领域,具体涉及一种图文识别人工校对辅助方法及系统。
背景技术
建设数字图书馆时,往往需要将纸质图书转化为电子版的数字图书。通常采用的方法是先将纸质图书扫描成图片格式的扫描件,然后利用OCR(Optical Character Recognition,光学字符识别)技术从扫描件中识别出字符及版面信息等内容,从而将纸质图书转化成了数字图书。但是,对于一些古籍,采用OCR技术识别的准确率较低,无法满足要求。
一种解决方法可以概括为:将书籍每页的扫描件切分成若干个包含若干个字符的子图片,将这些子图片分发给不同的人进行识别,再将识别结果合并成与扫描件对应的电子文档。但是,在对扫描件进行切分时,可能存在将同一字符切分到两个子图片的情况,造成识别的错误。也可能存在字符识别过程中的人为错误。因此,还需要对合成的电子文档进行校对。如果仅仅通过人工的方式对合成的电子文档进行校对,显然工作量较大,效率较低。
发明内容
针对现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种图文识别人工校对辅助方法与系统,该方法及系统能够向校对者提示出识别错误的字符,提高校对的质量和效率。
为解决上述技术问题,本发明采用的技术方案如下:
一种图文识别人工校对辅助方法,包括以下步骤:
(1)叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层;所述切分子图片层根据其在原始图片中的位置与原始图片层对应;
所述原始图片层是指扫描的原始图片,位于最底层;所述切分子图片层是指将所述原始图片切分成若干子图片后,再由这些子图片合成的层,还包括从子图片中识别的、与子图片对应的字符;所述全文合成层是指根据第一切分子图片层中识别字符,经过合并生成的与原始图片中字符对应的电子文件层;
(2)比较第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上的字符;如果不同,则对第一切分子图片层和第二切分子图片层中该字符所属子图片进行标注;
(3)根据标注结果,人工修改第一切分子图片层中标注位置的字符。
如上所述的图文识别人工校对辅助方法,该方法还包括对所述全文合成层进行分词分析的操作;如果所述全文合成层中多个字符由于一个字符而不能组成词组,则自动修改这个字符使多个字符能够组成词组,并在切分子图片层中对自动修改的字符所属子图片进行标注。
如上所述的图文识别人工校对辅助方法,其中,第一切分子图片层中将原始图片切分成若干子图片的方法如下:
依据字符排版方向,先将原始图片按照字符排版方向切分为若干图片条,每个图片条包含一行或一列字符;然后再将每个图片条按照字符排版方向切分成若干设定长度的子图片,切分图片条的过程如下:
从待切分图片条的起点开始,按照切分方向查找设定长度的预切分线;如果预切分线上黑像素个数超过阈值M,则沿着切分方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值M的位置,将该位置作为切分位置切分图片条;否则,直接将预切分线位置作为切分位置切分图片条;下一次切分操作从上一个切分位置开始计算设定长度;所述切分方向为待切分图片条中字符排版方向。
如上所述的图文识别人工校对辅助方法,其中,第二切分子图片层是以第一切分子图片层的切分线为基础再次将所述原始图片切分成若干子图片,具体的切分方法如下:
在图片条的每一个切分位置处,根据设定长度的1/2向左右或上下查找预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预切分线查找方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值M的位置,将该位置作为切分位置;否则,以将预切分线位置作为切分位置切分图片条。
如上所述的图文识别人工校对辅助方法,其中,阈值M为2。
如上所述的图文识别人工校对辅助方法,其中,对第一切分子图片层和第二切分子图片层中的子图片进行标注的方法为:设置子图片白色区域为透明,并依据第一切分子图片层与第二切分子图片层以及全文合成层中相对应字符的相似度,设置透明度百分比;相似度越大,透明度百分比越大。
如上所述的图文识别人工校对辅助方法,该方法还包括根据第一切分子图片层的修改结果自动修改全文合成层中的相应字符的步骤。
一种图文识别人工校对辅助系统,包括:
叠加装置,用于叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层;所述切分子图片层根据其在原始图片中的位置与原始图片层对应;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件(北京)有限公司;方正国际软件有限公司,未经方正国际软件(北京)有限公司;方正国际软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010572581.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种部分频率复用系统中分配频率资源的方法及装置
- 下一篇:能量吸收和分配材料