[发明专利]图像中的文本行检测方法、装置及计算机系统在审
| 申请号: | 201910227708.3 | 申请日: | 2019-03-25 |
| 公开(公告)号: | CN111738252A | 公开(公告)日: | 2020-10-02 |
| 发明(设计)人: | 杨志博;王永攀 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
| 主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/34 |
| 代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 南海燕 |
| 地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图像 中的 文本 检测 方法 装置 计算机系统 | ||
本申请实施例公开了图像中的文本行检测方法、装置及计算机系统,所述方法包括:建立目标算法模型;将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;根据所述多个像素点的方向场信息进行文本行分割。通过本申请实施例,对于图像中的文本行成曲线排列,并且存在行粘连情况,也能够准确的进行文本行的分割。
技术领域
本申请涉及文字识别技术领域,特别是涉及图像中的文本行检测方法、装置及计算机系统。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指对图像文件进行分析处理,识别出其中的文字信息的过程。一般分为两个步骤:文本行检测,即检测出文本行在图像中的位置;文字识别,即识别文本行中的文字具体为哪个文字。
随着OCR应用的普及,不仅是传统的文档扫描图像,还有越来越多的自然场景图片也开始应用OCR技术进行文字检测识别,以帮助人校验文字,检查图片中违规违法文字等。自然场景图片中的文字展现形式丰富,除了横向、竖向等直线排列的文字,还经常出现弯曲、旋转、扭曲等曲线方式排列的文字。例如街景中一些圆形的广告牌,商品图中的一些logo商标。事实上,扫描文档图像中也存在曲线排列的文字,例如发票和法务文档中的印章。只不过自然场景图片中更为普遍。另外,还有一些图片中,文字不仅是曲线方式排列,并且行与行之间的距离还可能会非常小,出现“行粘连”的情况。
上述曲线排列且“行粘连”的文字是文本行检测的难点,利用现有的文本行检测方法无法实现准确检测。现有的文字检测方法主要有以下两类:基于候选框的文字检测算法和基于语义分割的文字检测算法。其中,基于候选框的文字检测算法对于曲线形状排列的文本行无法准确进行检测定位;而基于语义分割的文字检测算法是指基于对图像的语义分类进行文字的检测。当文本行相近时,仅利用语义分割难以将同属文字类别却分属不同文本行的相邻像素区分开,因此,无法处理“行粘连”的情况。
发明内容
本申请提供了图像中的文本行检测方法、装置及计算机系统,对于图像中的文本行成曲线排列,并且存在行粘连情况,也能够准确的进行文本行的分割。
本申请提供了如下方案:
一种图像中的文本行检测方法,包括:
建立目标算法模型;
将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
根据所述多个像素点的方向场信息进行文本行分割。
一种图像中的文本行检测装置,包括:
模型建立单元,用于建立目标算法模型;
预测单元,用于将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
文本行分割单元,用于根据所述多个像素点的方向场信息进行文本行分割。
一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
建立目标算法模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910227708.3/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





