[发明专利]基于图像局部特征检索的文字识别方法无效
申请号: | 201010289545.0 | 申请日: | 2010-09-22 |
公开(公告)号: | CN101957919A | 公开(公告)日: | 2011-01-26 |
发明(设计)人: | 陈凯;郑琪;周异 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06K9/64 | 分类号: | G06K9/64;G06K9/00 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王锡麟;王桂忠 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图像 局部 特征 检索 文字 识别 方法 | ||
技术领域
本发明涉及的是一种图像处理技术领域的方法,具体是一种基于图像局部特征检索的文字识别方法。
背景技术
图像文字识别在许多领域有着广泛的需求,例如书本/CD封面识别、车牌识别、图像和视频搜索引擎和网络数据挖掘等。而针对复杂背景和自然拍摄的图像文字的识别,由于该类图像背景复杂,包括多样的语种、字体、字符大小、位置、排列、字形,加之自然拍摄图像中存在的光度不均、视角变换、几何变形、噪声干扰等,使得文本分析和识别面临着极大的困难。
传统的方法一般包括了文本定位、预处理(一般包括归一化、增强、二值化)和OCR文字识别这些步骤。其中的每一步都涉及了许多其它的复杂方法,每一步方法都将影响了最终识别结果的准确性。Chen的论文《Automatic detection and recognition of signs from naturalscenes(自然场景信号的自动检测和识别)》提出了一种从自然场景的图像中检测和识别信号的方法。其中利用LoG(Laplacian of Gaussian,高斯拉普拉斯)边缘检测、颜色建模、版面分析和仿射校来检测文本,然后对文本进行归一化处理,最后用基于灰度的OCR进行文本识别。Koga的论文《Camera-based Kanji OCR for mobile-phones:practical issues(用于手机实际使用的基于相机的汉字OCR)》针对手机提出了一种基于相机的汉字识别方法。该方法的第一部分包括了四个步骤:预二值化、粗略的版面分析、行方向检测、行分割。而后一部分也包括了四个步骤:精细二值化、预分割、汉字识别和后处理。由于这类基于OCR方法,其识别的准确率与文本定位、以及增强后的图像质量有着密切的关系。
由于对噪声、复杂背景和许多种几何变形、光度变换的鲁棒性,局部特征被成功运用到了计算机视觉的诸多领域之中,诸如图像匹配、物体识别、图像检索、建筑全景图和视频数据挖掘等。因此局部特征也可以被运用到文字识别中来。
经过对现有技术的检索发现,Campos的论文《Character recognition in natural images(自然图像中的文字识别)》利用局部特征和BoW(bag ofvisual words,视觉字)的模型来识别英语和印度单个字母。在陈凯的《基于SIFT特征与灰度差值直方图特征的文字识别方法》专利中,提出了新的局部特征来识别文字。该方法利用SIFT特征和灰度差值直方图特征来对图片中分割的文字进行描述,然后和模板库中的特征进行匹配,选择最接近的作为识别结果。这些方法都是针对分割之后的单字进行识别,需要文字定位和分割,无法直接运用到复杂背景和自然拍摄的图像中。
发明内容
本发明针对现有技术存在的上述不足,提供一种基于图像局部特征检索的文字识别方法,利用文字关键区域的局部特征来描述文字,并利用检索技术来实现复杂背景和自然拍摄的图片文字的识别。
本发明是通过以下技术方案实现的,本发明包括以下步骤:
第一步、建立汉字模板图库并提取其中每个汉字所对应图片的特征值作为特征匹配库;
所述的提取是指:采用尺度不变特征变换算法提取特征值。
所述的特征值包括特征点的位置信息、临域尺度信息、主方向信息,以及SIFT特征点的128维向量。
第二步、计算待识别汉字所对应图片的特征值,与特征匹配库进行特征点匹配,得到局部特征点坐标。
所述的特征点匹配是指:采用MPLSH(Multi-Probe Local Sensitive Hashing)多指针区域敏感哈希算法来进行快速的特征匹配。
第三步、对待识别汉字所对应图片进行单字子窗口提取;
所述的单字子窗口是指:图片中的一个正方形的区域,区域中包括了匹配所用的局部特征点;
所述的单字子窗口提取是指:统计待识别汉字所对应图片的局部特征点的位置的范围和临域尺度的范围,并根据临域尺度的范围计算出单字子窗口尺寸的范围。
第四步、构建识别最大堆并进行单字子窗口识别和合并处理,实现文字识别。
所述的构建识别最大堆是指:统计所有单字子窗口中匹配的特征点的个数,将个数小于阈值的单字子窗口删除,将剩余的单字子窗口组成一个识别最大堆,每次从堆中选择点数最多的单字子窗口进行识别,当该单字子窗口中识别出了文字则删除该文字上匹配的特征点并重新统计相关单字子窗口中特征点的个数,同时删除点数小于阈值的单字子窗口;否则直接删除该单字子窗口并重新进行构建,直至识别最大堆中不存在单字子窗口为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010289545.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于发生额审核财务报表系统
- 下一篇:一种手持设备的开关机电路
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序