[发明专利]文字识别、编改的方法有效
申请号: | 201010253563.3 | 申请日: | 2010-08-16 |
公开(公告)号: | CN101887519A | 公开(公告)日: | 2010-11-17 |
发明(设计)人: | 瞿洋;袁仁慧;梁洵;张振海 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F17/21 |
代理公司: | 北京捷诚信通专利事务所(普通合伙) 11221 | 代理人: | 魏殿绅 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 识别 方法 | ||
技术领域
本发明涉及文档电子化过程中文字识别、编改的方法,尤其涉及中文印刷体识别、编改的方法。
背景技术
在纸制文件电子化的过程中,OCR识别后的文字编改工作耗费了极大的人力,它是一项人力密集性工作,劳动强度也很高。目前的应用现状是:用普通OCR软件进行图像识别,再进行一次编改校正,在保证每人8万字/8小时正常编改的速度下,编改的错误率通常也会超过1/1000。
发明内容
为解决现有的人工编改效率低,错误率高的现状,本发明提供了一种文字识别、编改的方法。该方法可以极大地提高人工编改的效率,降低成本,其技术方案如下:
文字识别、编改的方法,包括:
选用不同的识别软件并采用外挂的方式对文档中的文字进行识别;
比对所识别文字的结果;
将识别不同的文字进行编改校对并进行质检;
将质检合格后的文字合成文档并输出。
本发明提供的技术方案的有益效果是:
通过本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上,达到70万字/8小时;同时编改错误率降低60%,达到4/10000以下。
附图说明
图1是本发明实施方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
本实施例提供了一种文字识别、编改的方法,具体包括以下流程(参见图1):
文档扫描与处理
为提高OCR识别软件识别正确率,对文档统一采用300DPI精度进行扫描,随后对图像进行必要的倾斜矫正、图像去污去噪等处理。
按段落切图
为保证双路OCR识别软件具有相同的版面分析结果,必须对文档图像进行段落切图,其切图顺序遵照文章段落的自然顺序,并且自动命名,以便结果输出时使用。
版面分析与检查
对切好的图像用“汉王”OCR识别软件进行自动版面分析;人工检查自动版面分析结果,纠正错误结果。检查时,对图像缺陷进行必要的修补,保证段落及行分析正确。如果需要,进行人工版面分析。我们以“汉王”OCR识别软件版面分析的结果作为最后重组段落的依据。
“汉王”和“文通”双路OCR识别软件外挂识别
把段落切图的图像进行“行切图”一一切成若干行图像,分别传入“汉王”和“文通”双路识别软件,进行外挂识别。
外挂识别就是不改变原来的OCR识别软件,编写新程序模拟人工操作OCR识别软件的过程,以便完成图像识别工作。外挂程序和OCR程序是各自独立运行的软件。外挂程序识别图像不需要OCR程序的识别接口,外挂程序利用OCR程序进行图像识别。
采用外挂识别可以有效地节约采购双路OCR识别SDK软件的费用,降低系统构建成本,也可以避免SDK软件相对于其正品软件技术落后的问题。
之所以经过“行切图”,再逐行送入双路识别软件进行识别的原因是:对即使很清晰的段落图像,由于两个识别软件的版面分析算法不同,版面分析的结果也可能不同。经过“行切图”,我们就能保证双路识别软件行分析的正确性。
双路识别结果比对
“汉王”和“文通”是国内对中文和英文都具有较高识别率的OCR系统,它们对清晰印刷体汉字图象识别率都在98%以上。更为可贵的是通过我们的对比测试,“汉王”和“文通”识别软件具有很强的互补性,利用他们的识别结果并进行单行逐字比对,过滤出具有相同的识别结果的字,不交给人工进行编改;把识别不同字交给人工进行编改校对。
实际应用统计说明,对正常印刷体汉字为主体的文档,我们不编改文字抛出率达到95%,这部分文字的错误率达到<3/10000。
在双路比对前,针对其应用需求,还对一些字符做了必要的全角字符转半角字符的归一化处理。这些字符包括A-Z、a-z、0-9、“!”、“[”、“]”等,共计80个字符。
双路行对比算法采用基于状态空间搜索A*算法,采用横向搜索寻找最优匹配。设两行待对比的文字串为S1和S2,它们的长度分别为m和n,且m≤n;S1包含字符(Cs1,Cs2,...,Csm),S2包含字符(Cl1,Cl2,...,Cln)。比对算法如下:
(1)对短文字串S1的每个文字Csi,且0≤i≤m,在长文字串S2中寻找匹配的字符,并把在S2中与Csi相匹配字符的索引放入可能匹配的集合SMi;随后在SMi中增加一个-1的索引,代表不匹配。过程如下:
F0R i=1 TO m
begin
F0R j=1 TO n
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010253563.3/2.html,转载请声明来源钻瓜专利网。