[发明专利]一种文字识别方法及装置有效
申请号: | 201310297948.3 | 申请日: | 2013-07-16 |
公开(公告)号: | CN104298982B | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 梅树起;陈泳君;刘伯兴 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 贾允;肖丁 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文字 识别 方法 装置 | ||
本发明涉及一种文字识别方法,包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。本发明还提供一种文字识别装置。利用本发明可以提高复杂背景中文字识别的准确率。
技术领域
本发明具体实施例涉及信息处理技术领域,特别涉及一种文字识别方法及装置。
背景技术
随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注。其中嵌入在图像中的文字是图像语义内容的一种重要表达方式,能够提供一些人们所需要的重要信息。例如图像中的文字可以是该图像的内容概述,如果能够自动提取和识别图像中的文字,就可以让计算机自动理解图像内容。让计算机像人类一样识别图像中的文字,对于图像和视频的存储、分类、理解及检索等来说具有极其重要的意义,有着广泛的应用前景和商业价值。然而,当前商业或开源的OCR(Optical CharacterRecognition,光学字符识别)系统,例如Tesseract、OpenRTK、TypeReader、清华紫光OCR等,多用于简单背景中的文字识别,对复杂背景中的文字识别效果并不好。
发明内容
有鉴于此,有必要提供一种文字识别方法及装置,可以提高复杂背景中文字识别的准确率。
一种文字识别方法,包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
一种文字识别装置,包括:定位模块,用于获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断模块,用于判断该局部背景是否属于复杂背景;确定模块,用于若该局部背景属于复杂背景,则确定该文字的颜色;构建模块,用于结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别模块,用于使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
相较于现有技术,本发明文字识别方法及装置,在图像中定位出文字区域后,若判断该文字区域中文字的背景为复杂背景,则根据文字的颜色和该文字区域构建选区为该文字的掩模,通过该掩模来提取该文字进行识别,可以提高复杂背景中文字识别的准确率。
为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
图1为本发明第一实施例提供的文字识别方法的流程图。
图2至图5为图像的示例图。
图6为图3对应的二值图的示例图。
图7为判断局部背景是否属于复杂背景的部分流程图。
图8为对图6所示的二值图进行膨胀处理后的示意图。
图9为各颜色通道的颜色直方图。
图10为判断局部背景是否属于复杂背景的部分流程图。
图11为图1中步骤S3的详细流程图。
图12为图1中步骤S4的详细流程图。
图13为对应于图2中文字区域的掩模。
图14为对掩模进行版面分析的结果示例图。
图15为对图14进行单字切分操作的结果示例图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310297948.3/2.html,转载请声明来源钻瓜专利网。