[发明专利]一种文字识别的方法和系统有效
| 申请号: | 200810240957.8 | 申请日: | 2008-12-24 |
| 公开(公告)号: | CN101458770A | 公开(公告)日: | 2009-06-17 |
| 发明(设计)人: | 张岩;于啸 | 申请(专利权)人: | 北京文通科技有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/20 |
| 代理公司: | 北京方韬法业专利代理事务所 | 代理人: | 岳 亚 |
| 地址: | 100190北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文字 识别 方法 系统 | ||
技术领域
本发明涉及图像处理技术领域,尤其涉及一种文字识别的方法和系统。
背景技术
目前光学字符识别(OCR)技术已经非常成熟并形成了一系列的产品,其中中文OCR识别技术已经在生产生活中得到广泛应用,中文印刷体的识别率可以达到98%以上。但是目前的OCR技术只能处理从扫描仪得到的高清晰度图像,从扫描仪获取的图像,是在源文档完全平整的条件下获取的,因此几乎不会存在几何失真,所得图像值可能在角度上存在一定的倾斜,对于这种倾斜的校正处理实际上已经相当成熟,几乎所有针对扫描仪的商业化OCR软件或者文档采集软件都具备相应的功能。
一个汉字识别系统大体上可分为输入、预处理、识别、后处理和输出共五个部分。
脱机汉字识别系统的对象是印(写)在纸上的文字。它的输入装置可以是扫描仪、传真机、一般摄像机或数字相机等。这些输入装置通常把印在纸上的图文整页地输入计算机。预处理的主要作用不但要把页面上的图文分开,还必须把所有文字逐个分离。在正常情况下,各行文字的投影之间有一空隙。利用这些间隔可以实现行切割,把各行文字分开。同理把每一行文字向垂直方向投影也可以得到投影图。汉字通常是矩形,彼此间有间隔,因此利用各行的垂直投影进行字切割也不困难。
对某一待识字进行识别时,一般必须将该字按一定准则,与存储在机内的每一个标准汉字模板逐一比较,找出其中最相似的字,作为识别的结果。显然, 汉字集合的字量越大,识别速度越低。为了提高识别速度,常采用树分类,即多级识别方法,先进行粗分类,再进行单字识别。因此识别模块包含粗分类和单字识别两部分。粗分类的作用是把整个汉字集合划分为若干个较小的子集,叫做候选集。有时有的候选集中的字数较多,还可以进行第二次粗分类,使候选集的字数进一步减少。这样的识别方法通常叫做树分类法,它好像是一棵树,整个汉字集合是树根;然后有树干和树枝,最后的树叶就是单字。顺便指出,这种具有多层分类结构的识别方法,对粗分类特征的要求更高,因为如果粗分类错误,影响很大。
后处理模块的作用是对单字识别器的输出进行校对、纠错,以提高整个系统的正确识别率。后处理纠错方法可以是人工的,也可以是自动的。
通过数码相机采集文档图像,是一个全新的应用领域。与传统的文档图像采集设备——扫描仪相比,数字照相机具有使用灵活,携带方便,不受版面大小限制等优点。
但是,现有的方案主要对于来自扫描仪的工整图像和具有一定倾斜角度的图像都可以很好的识别,对于来自数码相机和收集的任意角度拍摄的图像不能还不能识别。主要是视觉变形的图像不能通过传统的预处理进行有效分割,也不能采取简单的二值化方法进行特征提取。
直接拍摄得到的文档图像通常会存在一定程度的几何畸变,从而降低文档图像的质量,不利于人们对图像文档的阅读效果,同时也不利于后期进行分析和文字识别。如何将直接拍摄的文档图像进行处理以消除这种几何畸变就成为了一个亟待解决的问题。
发明内容
本发明的目的在于提出一种文字识别的方法和系统,能够解决几何畸变图像的文字识别问题。
为达此目的,本发明采用以下技术方案:
一种文字识别的方法,包括以下步骤:
A、获取变形图像的水平基线和垂直基线,对所有的垂直基线交点按照交点的权重取加权平均,获得所述变形图像的垂直方向消失点,对所有的水平基线变换到同一位置,利用所有的水平基线的点同一进行Bezier曲线拟合,获得一条Bezier准线,使用最小二乘法进行三次Bezier曲线拟合,获得所述变形图像的全局Bezier曲线;
B、在所述变形图像上等距离绘制网格,并将网格点投影到成像平面;
C、对每一个网格进行四边形变换,获得所述网格的矫正图像,并将所有网格的矫正图像拼接成最终矫正图像;
D、确定要识别的文字段落区域,对应到最终矫正图像区域进行预处理,切分得到独立文字;
E、对所述独立文字图像,采用基于灰度的识别算法进行识别。
获取所述变形图像的水平基线进一步包括以下步骤:
对所述变形图像按亮度进行灰度化处理;
将灰度图像进行模糊处理;
对得到的图像进行二值化,数学形态学独粘连处理,形成互相独立的文本行连通域;
对图像进行连通域分析,计算出上下边缘曲线的平均曲线作为水平基线。
使用霍夫变换,从文本行的左右端点中获取所述变形图像的垂直基线。
步骤C中,对每一个网格进行四边形变换是通过双线性插值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京文通科技有限公司,未经北京文通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810240957.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种利用计算机技术的建筑施工安全与监管的方法
- 下一篇:一种升降话筒





