[发明专利]一种图像中的字符提取方法及装置在审
申请号: | 201210513036.0 | 申请日: | 2012-12-04 |
公开(公告)号: | CN103854024A | 公开(公告)日: | 2014-06-11 |
发明(设计)人: | 黄树东;金远 | 申请(专利权)人: | 百度国际科技(深圳)有限公司 |
主分类号: | G06K9/46 | 分类号: | G06K9/46 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 倪志华 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图像 中的 字符 提取 方法 装置 | ||
技术领域
本发明涉及信息处理领域,特别是涉及一种图像中的字符提取方法及装置。
背景技术
随着移动终端(智能手机、平板电脑等)的快速发展及普及,基于多媒体信息的搜索需求越来越大。目前,基于输入内容的不同,上述搜索主要分为:文本搜索、语音搜索、图像直接搜索以及图像光学识别(OCR)搜索。图像OCR搜索针对前三种搜索的局限性,通过对图像中的字符块进行提取,并进行OCR识别转换为文本在进行搜索,其可以对网页、软件界面、视频、摄影预览、照片中出现的文字进行搜索,无需用户进行打字输入,给用户带来了极大的便利。
然而,如何根据用户的选择快速提取图像中的字符是上述搜索方式急需解决的问题。传统的从图像中提取字符的方法是通过设置一可边框来实现,用户通过调整可变框的位置及大小来对图像中的特定字符进行框选及提取。这种方式存在操作繁琐、误选率高(特别是对小屏幕移动终端)、灵活性差等问题,严重影响了用户体验。
发明内容
本发明主要解决的技术问题是提供一种图像中的字符提取方法及装置,以使用户方便、快速且准确地从图像中提取字符。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种图像中的字符提取方法,包括:获取字符图像,字符图像包括背景以及与背景相互区别的至少一字符行,字符行包括沿行方向排列的多个字符;获取第一坐标;在第一坐标处设置沿行方向延伸的检测线,并沿列方向平移检测线,以确定字符行的列边缘;根据字符行的列边缘从字符图像中切分出包括目标字符行的行区域;沿行方向确定目标字符行中的字符的行边缘之间的间隙;根据行边缘之间的间隙将行区域切分成多个块区域,每一块区域包括至少一字符。
其中,获取字符图像的步骤包括:获取彩色图像;对彩色图像进行灰度化处理,以获得灰度图像;对灰度图像进行二值化处理,以获得字符图像,其中背景由第一颜色表示,字符行由第二颜色表示。
其中,获取字符图像的步骤与获取第一坐标的步骤之间进一步包括:利用一半透明掩膜覆盖字符图像。
其中,于第一坐标处设置沿行方向延伸的检测线,并沿列方向平移检测线,以确定字符行的列边缘的步骤包括:在第一坐标处设置沿行方向延伸的第一检测线和第二检测线,并沿列方向反向平移第一检测线和第二检测线。
其中,于第一坐标处设置沿行方向延伸的检测线,并沿列方向平移检测线,以确定字符行的列边缘的步骤包括:根据检测线与字符行的接触点数量确定字符行的列边缘。
其中,根据字符行的列边缘从字符图像中切分出包括目标字符行的行区域的步骤包括:根据目标字符行的两侧列边缘以及目标字符行的相邻字符行的相邻列边缘或预先设定的平移阈值确定行区域的两侧列边缘在列方向上的位置。
其中,沿行方向确定目标字符行中的字符的行边缘之间的间隙的步骤包括:沿行方向确定目标字符行中的字符之间的词间隙和字符间隙,其中词间隙大于字符间隙;根据行边缘之间的间隙将行区域切分成多个块区域的步骤包括:根据词间隙将行区域切分成多个块区域。
其中,字符提取方法进一步包括:对块区域进行缓存。
其中,字符提取方法进一步包括:获取第二坐标;选取第一坐标和第二坐标之间的虚拟连线上的点所落入的块区域。
其中,获取第一坐标的步骤与于第一坐标处设置沿行方向延伸的检测线,并沿列方向平移检测线,以确定字符行的列边缘的步骤之间进一步包括:判断是否存在第一坐标对应的已缓存的块区域,若存在,则进入获取第二坐标的步骤,若不存在,则进入于第一坐标处设置沿行方向延伸的检测线,并沿列方向平移检测线,以确定字符行的列边缘的步骤。
其中,字符提取方法进一步包括:发送选取的块区域至第三方应用,以对选取的块区域中的字符进行识别。
其中,发送选取的块区域至第三方应用的步骤进一步包括:显示选取的块区域飞出字符图像的动画效果。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种图像中的字符提取装置,包括:字符图像获取单元,用于获取字符图像,字符图像包括背景以及与背景相互区别的至少一字符行,字符行包括沿行方向排列的多个字符;第一坐标获取单元,用于获取第一坐标;列边缘检测单元,用于在第一坐标处设置沿行方向延伸的检测线,并沿列方向平移检测线,以确定字符行的列边缘;行区域切分单元,用于根据字符行的列边缘从字符图像中切分出包括目标字符行的行区域;行边缘检测单元,用于沿行方向确定目标字符行中的字符的行边缘之间的间隙;块区域切分单元,用于根据行边缘之间的间隙将行区域切分成多个块区域,每一块区域包括至少一字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度国际科技(深圳)有限公司,未经百度国际科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210513036.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有标准接口的浮箱
- 下一篇:驱动单元及电动辅助自行车
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序