[发明专利]一种文本图像的处理方法、装置及存储介质在审
| 申请号: | 202211184737.4 | 申请日: | 2022-09-27 |
| 公开(公告)号: | CN115631505A | 公开(公告)日: | 2023-01-20 |
| 发明(设计)人: | 司孝齐;陈鸿龙 | 申请(专利权)人: | 浙江极氪智能科技有限公司;浙江吉利控股集团有限公司 |
| 主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/148 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 黄盼 |
| 地址: | 315899 浙江省宁波*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 图像 处理 方法 装置 存储 介质 | ||
本发明公开一种文本图像的处理方法、装置及存储介质,涉及文本检测识别技术领域,包括:获取文本图像;采用文本检测模型对文本图像进行检测,确定文本检测结果,文本检测结果包括文本图像的多个文本检测框;采用基于主成分分析算法的后处理方法确定每个文本检测框的主轴夹角,主轴夹角用于指示文本检测框与水平方向的夹角;当每个文本行中的至少两个文本检测框的主轴夹角满足预设条件时,对至少两个文本检测框进行合并处理;根据合并后的文本检测框和未合并的文本检测框确定目标检测框;根据每个目标检测框和文本识别模型确定每个目标检测框的文本识别结果,文本识别结果包括目标检测框的每个字的内容和位置。本发明能够提高文本图像的识别效率。
技术领域
本发明涉及文本检测识别技术领域,尤其涉及一种文本图像的处理方法、装置及存储介质。
背景技术
随着移动互联网技术的高速发展,越来越多的新型应用场景需要利用图像中的文字信息。文字相对于图像/视频中的其他内容,往往包含更强的语义信息,有更强的逻辑性和更概括的表达力。
为了将执照类、PPT类、办公文档类等场景的图像资料数字化以便后期使用和处理,最简单的方法是使用专人采集录入,但这种方式会带来大量的人力资源消耗。
在现有技术中,可以采用光学字符识别(Optical Character Recognition,OCR)技术,对文本资料的图像进行检测识别以获得识别结果,即将电子文档上的字符进行提取并转化为计算机可读的文本数据。但文本检测识别对采集的图像的质量有较高的要求。如果采集图像时,图像的亮度不均匀或者图像中的文字倾斜,则会引起单字定位误差较大,检测框杂乱等的问题,从而导致识别效率降低。
发明内容
本发明提供一种文本图像的处理方法、装置及存储介质,能够对文本图像中的文本检测框进行合并,提高了文本图像的识别效率。
为达到上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种文本图像的处理方法,该方法包括:
获取待处理的文本图像;
采用预设的文本检测模型对所述文本图像进行检测,确定文本检测结果,所述文本检测结果中包括所述文本图像中的多个文本检测框;
采用基于主成分分析(Principal Component Analysis,PCA)算法的后处理方法,确定所述多个文本检测框中每个文本检测框的主轴夹角,所述主轴夹角用于指示所述文本检测框与水平方向的夹角;
当所述文本图像的每个文本行中的至少两个文本检测框对应的主轴夹角满足预设条件时,对所述至少两个文本检测框进行合并处理;
根据合并后的文本检测框和未进行合并的文本检测框确定目标检测框;
根据每个所述目标检测框和预设的文本识别模型,确定每个所述目标检测框的文本识别结果,所述文本识别结果包括所述目标检测框中的每个字的内容和位置。
在一种可能的实现方式中,上述采用基于主成分分析算法的后处理方法,确定所述多个文本检测框中每个文本检测框的主轴夹角,包括:
确定每个文本检测框的面积,以及每个文本检测框对应的中心矩;
根据每个文本检测框对应的面积和中心矩,确定每个文本检测框对应的协方差矩阵;
对所述协方差矩阵进行奇异值分解,确定每个文本检测框对应的左奇异矩阵;
根据每个文本检测框对应的左奇异矩阵中的第一列向量,确定每个文本检测框的主轴夹角。
在一种可能的实现方式中,上述文本图像的处理方法还包括:
确定每个文本行中任意两个文本检测框之间的目标距离,所述目标距离为所述任意两个文本检测框的最短距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江极氪智能科技有限公司;浙江吉利控股集团有限公司,未经浙江极氪智能科技有限公司;浙江吉利控股集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211184737.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种换电式电源车
- 下一篇:一种基于5G工业互联网信息安全系统的量化测评方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





