[发明专利]一种文本识别、模型训练方法、装置、设备及存储介质在审
申请号: | 202210800458.X | 申请日: | 2022-07-06 |
公开(公告)号: | CN115019321A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 范森;王晓燕;吕鹏原;姚锟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/18;G06V30/14;G06V10/82;G06T3/40;G06N3/08;G06N3/04 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孟维娜;项京 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种文本识别方法,包括:
对待识别图像进行缩放处理,得到基准尺寸的第一图像;
提取所述第一图像的图像特征;
根据所述图像特征确定所述第一图像中文本的最小文本高度;
基于所述最小文本高度和所述基准尺寸对应的基准文本高度,获取对所述第一图像进行缩放处理后保持文本清晰的缩放系数;
按照所述缩放系数对所述第一图像进行缩放处理,得到第二图像;
对所述第二图像进行文本识别。
2.根据权利要求1所述的方法,其中,所述提取所述第一图像的图像特征,根据所述图像特征确定所述第一图像中文本的最小文本高度,基于所述最小文本高度和所述基准尺寸对应的基准文本高度,获取对所述第一图像进行缩放处理后保持文本清晰的缩放系数,包括:
通过将所述第一图像输入预先训练的缩放系数预测模型,得到输出的所述缩放系数;
其中,所述缩放系数预测模型为:以所述基准尺寸的样本图像为输入信息、样本缩放系数为训练标注对预设的神经网络模型进行训练得到的、用于预测缩放系数的模型,所述样本缩放系数根据所述样本图像中文本的最小高度和所述基准文本高度确定。
3.根据权利要求1所述的方法,其中,所述基于所述最小文本高度和所述基准尺寸对应的基准文本高度,获取对所述第一图像进行缩放处理后保持文本清晰的缩放系数,包括:
计算所述基准文本高度与所述最小文本高度之间的比值;
基于所述比值获取所述缩放系数。
4.一种模型训练方法,包括:
获取样本原始图像和所述样本原始图像中文本的标注框;
根据所述样本原始图像的第一尺寸,获取将所述第一尺寸缩放至基准尺寸的缩放比例;
按照所述缩放比例,对所述样本原始图像进行缩放处理,得到样本处理图像;
按照所述缩放比例对所述标注框进行缩放处理;
确定缩放后的标注框的最小框高度;
基于所述最小框高度和所述基准尺寸对应的基准文本高度,获取第一缩放系数;
将所述样本处理图像输入预设的神经网络模型,得到输出的第二缩放系数;
根据所述第一缩放系数与所述第二缩放系数之间的第一差异信息,对所述神经网络模型进行网络参数调整,得到缩放系数预测模型。
5.根据权利要求4所述的方法,其中,所述基于所述最小框高度和所述基准尺寸对应的基准文本高度,获取第一缩放系数,包括:
计算所述基准文本高度与所述最小框高度之间的比值;
所述第一缩放系数为所述比值。
6.根据权利要求4所述的方法,其中,所述基于所述最小框高度和所述基准尺寸对应的基准文本高度,获取第一缩放系数,包括:
响应于确定所述最小框高度大于预设高度,基于所述最小框高度和所述基准文本高度,获取所述第一缩放系数。
7.根据权利要求4-6中任一项所述的方法,其中,
所述神经网络模型的输出还包括以下至少一项:表征所述样本处理图像中是否存在文本的第一信息、表征所述样本处理图像中文本方向的第二信息;
所述根据所述第一缩放系数与所述第二缩放系数之间的第一差异信息,对所述神经网络模型进行网络参数调整,得到缩放系数预测模型,包括:
根据扩展信息和所述第一差异信息,对所述神经网络模型进行网络参数调整,得到缩放系数预测模型;其中,
所述扩展信息包括以下至少一项:
所述第二信息与第三信息之间的第二差异信息,所述第三信息表征所述标注框中的文本方向;
所述第一信息与第四信息之间的第三差异信息,所述第四信息表征所述样本处理图像存在文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210800458.X/1.html,转载请声明来源钻瓜专利网。