[发明专利]一种图文识别人工校对辅助方法及系统无效
申请号: | 201010572581.8 | 申请日: | 2010-11-30 |
公开(公告)号: | CN102479326A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 吴建宇 | 申请(专利权)人: | 方正国际软件(北京)有限公司;方正国际软件有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F17/27 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图文 识别 人工 校对 辅助 方法 系统 | ||
1.一种图文识别人工校对辅助方法,包括以下步骤:
(1)叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层;所述切分子图片层根据其在原始图片中的位置与原始图片层对应;
所述原始图片层是指扫描的原始图片,位于最底层;所述切分子图片层是指将所述原始图片切分成若干子图片后,再由这些子图片合成的层,还包括从子图片中识别的、与子图片对应的字符;所述全文合成层是指根据第一切分子图片层中识别字符,经过合并生成的与原始图片中字符对应的电子文件层;
(2)比较第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上的字符;如果不同,则对第一切分子图片层和第二切分子图片层中该字符所属子图片进行标注;
(3)根据标注结果,人工修改第一切分子图片层中标注位置的字符。
2.如权利要求1所述的图文识别人工校对辅助方法,其特征在于:所述方法还包括对所述全文合成层进行分词分析的操作;如果所述全文合成层中多个字符由于一个字符而不能组成词组,则自动修改这个字符使多个字符能够组成词组,并在切分子图片层中对自动修改的字符所属子图片进行标注。
3.如权利要求1或2所述的图文识别人工校对辅助方法,其特征在于:第一切分子图片层中将原始图片切分成若干子图片的方法如下:
依据字符排版方向,先将原始图片按照字符排版方向切分为若干图片条,每个图片条包含一行或一列字符;然后再将每个图片条按照字符排版方向切分成若干设定长度的子图片,切分图片条的过程如下:
从待切分图片条的起点开始,按照切分方向查找设定长度的预切分线;如果预切分线上黑像素个数超过阈值M,则沿着切分方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值M的位置,将该位置作为切分位置切分图片条;否则,直接将预切分线位置作为切分位置切分图片条;下一次切分操作从上一个切分位置开始计算设定长度;所述切分方向为待切分图片条中字符排版方向。
4.如权利要求3所述的图文识别人工校对辅助方法,其特征在于:所述第二切分子图片层是以第一切分子图片层的切分线为基础再次将所述原始图片切分成若干子图片,具体的切分方法如下:
在图片条的每一个切分位置处,根据设定长度的1/2向左右或上下查找预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预切分线查找方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值M的位置,将该位置作为切分位置;否则,以将预切分线位置作为切分位置切分图片条。
5.如权利要求4所述的图文识别人工校对辅助方法,其特征在于:所述阈值M为2。
6.如权利要求1或2所述的图文识别人工校对辅助方法,其特征在于:对第一切分子图片层和第二切分子图片层中的子图片进行标注的方法为:设置子图片白色区域为透明,并依据第一切分子图片层与第二切分子图片层以及全文合成层中相对应字符的相似度,设置透明度百分比;相似度越大,透明度百分比越大。
7.如权利要求1所述的图文识别人工校对辅助方法,其特征在于:所述方法还包括根据第一切分子图片层的修改结果自动修改全文合成层中的相应字符的步骤。
8.一种图文识别人工校对辅助系统,包括:
叠加装置(11),用于叠加原始图片层、第一切分子图片层、第二切分子图片层和全文合成层;所述切分子图片层根据其在原始图片中的位置与原始图片层对应;
所述原始图片层是指扫描的原始图片,位于最底层;所述切分子图片层是指将所述原始图片切分成若干子图片后,再由这些子图片合成的层,还包括从子图片中识别的、与子图片对应的字符;所述全文合成层是指根据第一切分子图片层中识别字符,经过合并生成的与原始图片中字符对应的电子文件层;
比较装置(12),用于比较第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上的字符;
标注装置(13),用于根据比较装置(12)的比较结果,对第一切分子图片层和第二切分子图片层中该字符所属子图片进行标注;所述子图片是指第一切分子图片层、第二切分子图片层和全文合成层中相对应位置上字符不同时该字符所属的子图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件(北京)有限公司;方正国际软件有限公司,未经方正国际软件(北京)有限公司;方正国际软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010572581.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种部分频率复用系统中分配频率资源的方法及装置
- 下一篇:能量吸收和分配材料