[发明专利]具备辅助定位功能的OCR识别方法和装置有效

申请号：	200810215861.6	申请日：	2008-09-05
公开（公告）号：	CN101667251A	公开（公告）日：	2010-03-10
发明（设计）人：	陈又新;李斌;王华;王炎	申请（专利权）人：	三星电子株式会社;北京三星通信技术研究有限公司
主分类号：	G06K9/20	分类号：	G06K9/20
代理公司：	中科专利商标代理有限责任公司	代理人：	戎志敏
地址：	韩国***	国省代码：	韩国;KR
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	具备辅助定位功能 ocr 识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及图像处理和模式识别领域，特别是视频和自然场景中的文本检测和定位，字符识别。

背景技术

现在OCR技术越来越多地应用到带有图像扫描(或摄像)功能的移动智能终端和PDA等设备上，但是由于往往背景较为复杂如视频图像时，在 OCR之前的文本定位问题上还存在着一定的技术难点，造成文本定位的结果出现偏差，不能方便准确地检测到所需要识别的字符，或把一个文本区域错误地划分为多个相关的文本子区域，影响OCR识别结果的连续性和计算开销，再加上文字识别率偏低，造成最终的结果(如翻译)不很理想，因而这时候就需要进行一些辅助定位的方式来提高文字定位准确率和识别准确率。

目前图像(或视频)文本识别的基本过程，首先通过对所采集到的文本图像(或视频中的某帧图像)，进行图像的预处理(增强滤波等)，以及版面的分析和理解，以此检测和定位出文本区域，再对各个文本区域进行字符识别，进一步可对识别结果做后处理校正等操作，其中的“文本区域定位”直接影响最终的识别结果，以及整个系统的计算效率。

现有的OCR功能手机通过摄像头扫描文本文字，进行中英互译，用户使用时首先需将手机上的摄像头对准文字中心，手机与文字垂直距离为10 厘米以上；用户通过手机上导航键进行对焦；需要确保待识别文字的高度高于显示对焦符号“+”的高度；若是竖排的中文文字，需要在菜单中选择“竖排文本”。在操作的界面中，会出现“高亮”的条带来定位待识别的文本区域，对此条带区域中的文字进行识别和翻译。该方法采用“高亮” 的条带来辅助定位待识别的文本区域，需要用户将手机上的摄像头对准文字中心，以及需要手机与文字垂直保持一定的距离，如若要识别竖排的文本区域时需要用户做特别设定，给用户的操作有很多的限制，系统不能自动进行文本区域的定位，并且运行的时间长。

[CN 1804858 A]是一种用于带摄像头的移动终端，实施OCR功能的针对待识别文字的辅助定位技术，该方法使屏幕上会出现一个十字光标，用户移动光标，可以使光标的原点位于待识别文本区域内，以此来辅助定位，同时可以调整待识别字符区域的底边与十字光标的横轴平行，待识别字符区域的底边与十字光标的纵轴相垂直，用来防止拍摄倾斜，提高识别率。该方法采用十字光标，来辅助定位待识别文本区域，调整十字光标的横轴和纵轴与待识别字符区域的底边相互平行和垂直，用来防止文字的倾斜，需要用户仔细调整光标的位置，并且每次只能定位一个文本区域，整个定位和识别的运行时间较长。

[CN 1685358 A]提出一种在图像中自动定位文本区域的方法，包括的步骤有把数字图像转化为二值图像；定位可能的文本区域；选择实际文本区域；其在文本区域定位步骤中的特征是，应用形态学掩模，以对二值图像应用形态学操作，再根据一些规则，以在图像中生成封闭块，从而定位文本区域。该方法采用在全部的图像区域中，来搜索定位文本区域，计算量大并且会出现一些错误和遗漏的定位。

[US 7171046]提出一种在采集的图像中识别文字的方法，包括的步骤有使用便携式设备采集有文本信息的图像；实时地检测图像中的文本区域；调整文本检测区域的结果，应用OCR技术进行文字识别；补充相关的外在信息，包括旅游信息、交通信息等；使用词典技术来改进OCR识别的结果，输出识别的文本和补充的信息，或进一步地进行翻译，并且把采用该方法的图像文字检测和识别系统在一个便携式的设备中实现。该方法在识别之前手工调整文本区域定位的结果，需要用户的直接干预，不方便用户的直接使用。

发明内容

本发明的目的是提供一种具备辅助定位功能的OCR识别方法和装置。

按照本发明的一方面，一种具备辅助定位功能的OCR识别方法，包括步骤：

对目标进行拍摄并捕获到包含文字的图像；

对所述图像区域进行搜索，检测出一个或多个文本区域；

选择特定文本区域；

对被选择的特定文本区域中的文字进行识别。

按照本发明的另一方面，一种具备辅助定位功能的OCR识别方法，包括步骤：

点击屏幕上包括文本区域的一个或多个点；

对包含有点击处的图像区域进行拍摄；

对拍摄图像进行文本区域的检测和定位，得到候选文本区域；

对候选文本区域中的文字进行OCR识别。