[发明专利]文字识别、编改的方法有效

专利信息
申请号: 201010253563.3 申请日: 2010-08-16
公开(公告)号: CN101887519A 公开(公告)日: 2010-11-17
发明(设计)人: 瞿洋;袁仁慧;梁洵;张振海 申请(专利权)人: 同方知网(北京)技术有限公司
主分类号: G06K9/20 分类号: G06K9/20;G06F17/21
代理公司: 北京捷诚信通专利事务所(普通合伙) 11221 代理人: 魏殿绅
地址: 100084 北京市海淀区清华园清华*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文字 识别 方法
【说明书】:

技术领域

发明涉及文档电子化过程中文字识别、编改的方法,尤其涉及中文印刷体识别、编改的方法。

背景技术

在纸制文件电子化的过程中,OCR识别后的文字编改工作耗费了极大的人力,它是一项人力密集性工作,劳动强度也很高。目前的应用现状是:用普通OCR软件进行图像识别,再进行一次编改校正,在保证每人8万字/8小时正常编改的速度下,编改的错误率通常也会超过1/1000。

发明内容

为解决现有的人工编改效率低,错误率高的现状,本发明提供了一种文字识别、编改的方法。该方法可以极大地提高人工编改的效率,降低成本,其技术方案如下:

文字识别、编改的方法,包括:

选用不同的识别软件并采用外挂的方式对文档中的文字进行识别;

比对所识别文字的结果;

将识别不同的文字进行编改校对并进行质检;

将质检合格后的文字合成文档并输出。

本发明提供的技术方案的有益效果是:

通过本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上,达到70万字/8小时;同时编改错误率降低60%,达到4/10000以下。

附图说明

图1是本发明实施方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:

本实施例提供了一种文字识别、编改的方法,具体包括以下流程(参见图1):

文档扫描与处理

为提高OCR识别软件识别正确率,对文档统一采用300DPI精度进行扫描,随后对图像进行必要的倾斜矫正、图像去污去噪等处理。

按段落切图

为保证双路OCR识别软件具有相同的版面分析结果,必须对文档图像进行段落切图,其切图顺序遵照文章段落的自然顺序,并且自动命名,以便结果输出时使用。

版面分析与检查

对切好的图像用“汉王”OCR识别软件进行自动版面分析;人工检查自动版面分析结果,纠正错误结果。检查时,对图像缺陷进行必要的修补,保证段落及行分析正确。如果需要,进行人工版面分析。我们以“汉王”OCR识别软件版面分析的结果作为最后重组段落的依据。

“汉王”和“文通”双路OCR识别软件外挂识别

把段落切图的图像进行“行切图”一一切成若干行图像,分别传入“汉王”和“文通”双路识别软件,进行外挂识别。

外挂识别就是不改变原来的OCR识别软件,编写新程序模拟人工操作OCR识别软件的过程,以便完成图像识别工作。外挂程序和OCR程序是各自独立运行的软件。外挂程序识别图像不需要OCR程序的识别接口,外挂程序利用OCR程序进行图像识别。

采用外挂识别可以有效地节约采购双路OCR识别SDK软件的费用,降低系统构建成本,也可以避免SDK软件相对于其正品软件技术落后的问题。

之所以经过“行切图”,再逐行送入双路识别软件进行识别的原因是:对即使很清晰的段落图像,由于两个识别软件的版面分析算法不同,版面分析的结果也可能不同。经过“行切图”,我们就能保证双路识别软件行分析的正确性。

双路识别结果比对

“汉王”和“文通”是国内对中文和英文都具有较高识别率的OCR系统,它们对清晰印刷体汉字图象识别率都在98%以上。更为可贵的是通过我们的对比测试,“汉王”和“文通”识别软件具有很强的互补性,利用他们的识别结果并进行单行逐字比对,过滤出具有相同的识别结果的字,不交给人工进行编改;把识别不同字交给人工进行编改校对。

实际应用统计说明,对正常印刷体汉字为主体的文档,我们不编改文字抛出率达到95%,这部分文字的错误率达到<3/10000。

在双路比对前,针对其应用需求,还对一些字符做了必要的全角字符转半角字符的归一化处理。这些字符包括A-Z、a-z、0-9、“!”、“[”、“]”等,共计80个字符。

双路行对比算法采用基于状态空间搜索A*算法,采用横向搜索寻找最优匹配。设两行待对比的文字串为S1和S2,它们的长度分别为m和n,且m≤n;S1包含字符(Cs1,Cs2,...,Csm),S2包含字符(Cl1,Cl2,...,Cln)。比对算法如下:

(1)对短文字串S1的每个文字Csi,且0≤i≤m,在长文字串S2中寻找匹配的字符,并把在S2中与Csi相匹配字符的索引放入可能匹配的集合SMi;随后在SMi中增加一个-1的索引,代表不匹配。过程如下:

F0R i=1 TO m

begin

      F0R j=1 TO n

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010253563.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top