[发明专利]文字检测方法、装置、终端及存储介质在审
申请号: | 201810435318.0 | 申请日: | 2018-05-08 |
公开(公告)号: | CN108564084A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 王赢绪;刘学博;梁鼎 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 李梅香;张颖玲 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标图像 存储介质 特征数据 文字候选 文字检测 终端 排列方向 特征提取 文本框 | ||
本发明实施例公开了一种文字检测方法、装置、终端及存储介质;其中,方法包括:对目标图像进行特征提取处理,得到所述目标图像的特征数据;根据所述特征数据,得到所述目标图像的多个文字候选框;对所述多个文字候选框沿着文字的排列方向进行组合,得到至少一个文本框。
技术领域
本发明涉及通信技术,尤其涉及一种文字检测方法、装置、终端及存储介质。
背景技术
随着计算机视觉的飞速发展,文字识别逐渐渗透到人类生活的各个领域。有效且高效的文字检测可以极大程度地辅助文字识别进而完成整个图片向文字的转化,文字检测技术对于图像内容理解、图像翻译、自动驾驶都具有较大的意义。
相关技术中,进行文字检测采用大型深度神经网络(如ResNet、GoogleNet),并令深度学习任务运行在图形处理器(GPU,Graphics Processing Unit)集群上,这些大型深度神经网络参数多、计算量大,对设备的计算能力有很高的要求,而在一些应用场景下,例如:识别银行卡上的账号、手机截屏所得图片到文字的转化等场景下文字的检测,用户更希望在本地设备或者移动终端上能够实现,然受限于计算资源,或是文字检测的效率、准确率低,或是无法实现文字检测。
发明内容
本发明实施例提供一种文字检测方法、装置、终端及存储介质,能够准确的实现文字检测,且文字检测效率高。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种文字检测方法,包括:
对目标图像进行特征提取处理,得到所述目标图像的特征数据;
根据所述特征数据,得到所述目标图像的多个文字候选框;
对所述多个文字候选框沿着文字的排列方向进行组合,得到至少一个文本框。
在一些实施例中,所述目标图像的特征数据指示下列中的至少一项:
所述目标图像的多个区域中每个区域包含文字的概率、所述多个区域中每个区域与文字的边界在高度方向上的距离。
在一些实施例中,所述根据所述特征数据,得到所述目标图像的多个文字候选框,包括:
基于所述区域与文字的边界在高度方向上的距离,对所述区域在高度方向上进行尺寸调整处理,得到所述文字候选框。
在一些实施例中,所述文字候选框的宽度为固定宽度;和/或
所述文字候选框的高度与文字高度相匹配。
在一些实施例中,所述基于所述多个文字候选框的信息,对所述多个文字候选框沿着文字的排列方向进行组合,得到至少一个文本框,包括:
基于所述多个文字候选框的信息,对所述多个文字候选框进行筛选,得到至少一个目标文字候选框;
对所述至少一个目标文字候选框沿着文字的排列方向进行组合,得到至少一个文本框。
在一些实施例中,所述基于所述多个文字候选框的信息,对所述多个文字候选框进行筛选,得到至少一个目标文字候选框,包括:
确定所述多个文字候选框中的第一文字候选框与所述多个文字候选框中的第二文字候选框的交并比;
在所述交并比超过第一比值阈值的情况下,从所述第一文字候选框和所述第二文字候选框中确定所述目标文字候选框。
在一些实施例中,所述从所述第一文字候选框和所述第二文字候选框中确定所述目标文字候选框,包括:
将所述第一文字候选框和所述第二文字候选框中包含文字的概率较高的文字候选框确定为所述目标文字候选框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810435318.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种遥感图像变化检测方法及装置
- 下一篇:一种自动读取指针式仪表读数的方法