[发明专利]文字识别、编改的方法有效

申请号：	201010253563.3	申请日：	2010-08-16
公开（公告）号：	CN101887519A	公开（公告）日：	2010-11-17
发明（设计）人：	瞿洋;袁仁慧;梁洵;张振海	申请（专利权）人：	同方知网(北京)技术有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06F17/21
代理公司：	北京捷诚信通专利事务所(普通合伙) 11221	代理人：	魏殿绅
地址：	100084 北京市海淀区清华园清华***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文字识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及文档电子化过程中文字识别、编改的方法，尤其涉及中文印刷体识别、编改的方法。

背景技术

在纸制文件电子化的过程中，OCR识别后的文字编改工作耗费了极大的人力，它是一项人力密集性工作，劳动强度也很高。目前的应用现状是：用普通OCR软件进行图像识别，再进行一次编改校正，在保证每人8万字/8小时正常编改的速度下，编改的错误率通常也会超过1/1000。

发明内容

为解决现有的人工编改效率低，错误率高的现状，本发明提供了一种文字识别、编改的方法。该方法可以极大地提高人工编改的效率，降低成本，其技术方案如下：

文字识别、编改的方法，包括：

选用不同的识别软件并采用外挂的方式对文档中的文字进行识别；

比对所识别文字的结果；

将识别不同的文字进行编改校对并进行质检；

将质检合格后的文字合成文档并输出。

本发明提供的技术方案的有益效果是：

通过本发明对正常的汉字为主体的文档其编改的效率可以提高7倍以上，达到70万字/8小时；同时编改错误率降低60％，达到4/10000以下。

附图说明

图1是本发明实施方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述：

本实施例提供了一种文字识别、编改的方法，具体包括以下流程(参见图1)：

文档扫描与处理

为提高OCR识别软件识别正确率，对文档统一采用300DPI精度进行扫描，随后对图像进行必要的倾斜矫正、图像去污去噪等处理。

按段落切图

为保证双路OCR识别软件具有相同的版面分析结果，必须对文档图像进行段落切图，其切图顺序遵照文章段落的自然顺序，并且自动命名，以便结果输出时使用。

版面分析与检查

对切好的图像用“汉王”OCR识别软件进行自动版面分析；人工检查自动版面分析结果，纠正错误结果。检查时，对图像缺陷进行必要的修补，保证段落及行分析正确。如果需要，进行人工版面分析。我们以“汉王”OCR识别软件版面分析的结果作为最后重组段落的依据。

“汉王”和“文通”双路OCR识别软件外挂识别

把段落切图的图像进行“行切图”一一切成若干行图像，分别传入“汉王”和“文通”双路识别软件，进行外挂识别。

外挂识别就是不改变原来的OCR识别软件，编写新程序模拟人工操作OCR识别软件的过程，以便完成图像识别工作。外挂程序和OCR程序是各自独立运行的软件。外挂程序识别图像不需要OCR程序的识别接口，外挂程序利用OCR程序进行图像识别。

采用外挂识别可以有效地节约采购双路OCR识别SDK软件的费用，降低系统构建成本，也可以避免SDK软件相对于其正品软件技术落后的问题。

之所以经过“行切图”，再逐行送入双路识别软件进行识别的原因是：对即使很清晰的段落图像，由于两个识别软件的版面分析算法不同，版面分析的结果也可能不同。经过“行切图”，我们就能保证双路识别软件行分析的正确性。

双路识别结果比对

“汉王”和“文通”是国内对中文和英文都具有较高识别率的OCR系统，它们对清晰印刷体汉字图象识别率都在98％以上。更为可贵的是通过我们的对比测试，“汉王”和“文通”识别软件具有很强的互补性，利用他们的识别结果并进行单行逐字比对，过滤出具有相同的识别结果的字，不交给人工进行编改；把识别不同字交给人工进行编改校对。

实际应用统计说明，对正常印刷体汉字为主体的文档，我们不编改文字抛出率达到95％，这部分文字的错误率达到＜3/10000。

在双路比对前，针对其应用需求，还对一些字符做了必要的全角字符转半角字符的归一化处理。这些字符包括A-Z、a-z、0-9、“！”、“[”、“]”等，共计80个字符。

双路行对比算法采用基于状态空间搜索A*算法，采用横向搜索寻找最优匹配。设两行待对比的文字串为S1和S2，它们的长度分别为m和n，且m≤n；S1包含字符(Cs1，Cs2，...，Csm)，S2包含字符(Cl1，Cl2，...，Cln)。比对算法如下：

(1)对短文字串S1的每个文字Csi，且0≤i≤m，在长文字串S2中寻找匹配的字符，并把在S2中与Csi相匹配字符的索引放入可能匹配的集合SMi；随后在SMi中增加一个-1的索引，代表不匹配。过程如下：

F0R i＝1 TO m

begin

F0R j＝1 TO n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司，未经同方知网(北京)技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010253563.3/2.html，转载请声明来源钻瓜专利网。

上一篇：利用迷你内含子蛋白介导人胰高血糖素样肽(GLP-1)的制备
下一篇：一种充电的方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文字识别、编改的方法有效

专利文献下载