[发明专利]一种文本识别、模型训练方法、装置、设备及存储介质在审
申请号: | 202210800458.X | 申请日: | 2022-07-06 |
公开(公告)号: | CN115019321A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 范森;王晓燕;吕鹏原;姚锟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/18;G06V30/14;G06V10/82;G06T3/40;G06N3/08;G06N3/04 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孟维娜;项京 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 模型 训练 方法 装置 设备 存储 介质 | ||
本公开提供了一种文本识别、模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:对待识别图像进行缩放处理,得到基准尺寸的第一图像;提取所述第一图像的图像特征;根据所述图像特征确定所述第一图像中文本的最小文本高度;基于所述最小文本高度和所述基准尺寸对应的基准文本高度,获取对所述第一图像进行缩放处理后保持文本清晰的缩放系数;按照所述缩放系数对所述第一图像进行缩放处理,得到第二图像;对所述第二图像进行文本识别。应用本公开实施例搜提供的方案能够针对各种尺寸的图像进行文本识别。
技术领域
本公开涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。
背景技术
图像在日常生活中越来越常见,一些图像可能会记录有文本,例如,网页图像中记录有文章等文本、发票图像中记录有开票人、开票日期等文本,鉴于此,为便于进行文本处理,需要识别图像中的文本。
然而不同的场景中图像的尺寸可能差距较大,例如,表情包图像的尺寸往往较小,而滑动截屏图像的尺寸往往较大。
鉴于上述情况,需要提供一种基于图像的文本识别方法,能够针对各种尺寸的图像进行文本识别。
发明内容
本公开提供了一种文本识别、模型训练方法、装置、设备及存储介质。
根据本公开的一方面,提供了一种文本识别方法,包括:
对待识别图像进行缩放处理,得到基准尺寸的第一图像;
提取所述第一图像的图像特征;
根据所述图像特征确定所述第一图像中文本的最小文本高度;
基于所述最小文本高度和所述基准尺寸对应的基准文本高度,获取对所述第一图像进行缩放处理后保持文本清晰的缩放系数;
按照所述缩放系数对所述第一图像进行缩放处理,得到第二图像;
对所述第二图像进行文本识别。
根据本公开的另一方面,提供了一种模型训练方法,包括:
获取样本原始图像和所述样本原始图像中文本的标注框;
根据所述样本原始图像的第一尺寸,获得将所述第一尺寸缩放至基准尺寸的缩放比例;
按照所述缩放比例,对所述样本原始图像进行缩放处理,得到样本处理图像;
按照所述缩放比例对所述标注框进行缩放处理;
确定缩放后的标注框的最小框高度;
基于所述最小框高度和所述基准尺寸对应的基准文本高度,获取第一缩放系数;
将所述样本处理图像输入预设的神经网络模型,得到输出的第二缩放系数;
根据所述第一缩放系数与所述第二缩放系数之间的第一差异信息,对所述神经网络模型进行网络参数调整,得到缩放系数预测模型。
根据本公开的另一方面,提供了一种文本识别装置,包括:
第一图像获得模块,用于对待识别图像进行缩放处理,得到基准尺寸的第一图像;
缩放系数获取模块,用于提取所述第一图像的图像特征,根据所述图像特征确定所述第一图像中文本的最小文本高度,并基于所述最小文本高度和所述基准尺寸对应的基准文本高度,获取对所述第一图像进行缩放处理后保持文本清晰的缩放系数;
第二图像获得模块,用于按照所述缩放系数对所述第一图像进行缩放处理,得到第二图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210800458.X/2.html,转载请声明来源钻瓜专利网。