[发明专利]一种基于图像矩矫正的深度学习文本字符检测方法在审
申请号: | 202011506599.8 | 申请日: | 2020-12-18 |
公开(公告)号: | CN112580507A | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 田辉;刘其开 | 申请(专利权)人: | 合肥高维数据技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
代理公司: | 北京知联天下知识产权代理事务所(普通合伙) 11594 | 代理人: | 史光伟;张迎新 |
地址: | 230088 安徽省合肥市高新区*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图像 矫正 深度 学习 文本 字符 检测 方法 | ||
本发明公开了一种基于图像矩矫正的深度学习文本字符检测方法,所述方法具体包括以下步骤:数据集准备、人工修正预标注不准的box框,根据所述box框生成高斯热图形式的热图标签、定义神经网络结构和损失函数、预训练、扩充实际场景的训练样本集、对扩充后的训练样本集进行自适应二值化操作,计算每个字符的Hu矩特征向量,取向量均值作为字符的辅助标签、修改损失函数形式进行微调训练和模型测试与验证;该方法通过热图标签和矩特征向量标签联合构成优化损失函数,提升了字符box框的准确性,解决了字符边框过度分割以及欠分割的问题;通过对样本集扩充后进行预处理,弥补了字符级标注不足的问题,其字符检测泛化能力更好。
技术领域
本发明属于目标检测领域,特别涉及一种基于图像矩矫正的深度学习文本字符检测方法。
背景技术
目前,文本检测在计算机视觉领域有着广泛的应用,如用于实时翻译、图像检索、场景解析、地理定位、盲导航等,从而在场景理解和文本分析具有极高的应用价值和研究意义。
现有的文本检测方法分为以下几类:
1.传统的图像处理方法,基于手工设计的特征检测,如MSER(最大稳定极值区域)和SWT(笔画宽度变换),该方法主要处理印刷字体以及打印扫描场景的文本检测,对于自然场景的文本检测效果较差;
2.基于深度学习的Two-stage方法,生成候选区域并提取对应的特征,进行网络训练微调,输出对应的文本区域框,该方法的优点是精度较高,对小尺度的目标检测也有不错的性能,共享计算量,缺点是推理速度慢,训练周期较长;
3.基于深度学习的One-stage方法,直接略过生成候选框步骤,进行端到端地预测目标的文本区域框,优点是推理速度快,缺点比two-stage的精度低,小目标检测效果不好。
现有的文本检测算法技术大部分是基于输出文本行区域位置坐标,例如现有的文本检测技术中的基准网络CTPN基于Two-stage方法进行了改进,在faster RCNN的基础上,结合了目标文本的水平排列或竖直排列的特殊性改进的,输出的是文本行区域。现有的文本检测算法技术并未精确到字符级的文本检测,因而提供的信息有限。
现有的字符级的文本检测算法是基于语义分割思想,标签将高斯中心热图替代像素级块状热图,采用区域得分或紧密型得分两个指标优化网络,后处理通过对概率图进行二值化处理,得到最终的字符边框。字符级的文本检测不仅可以输出单个字符框体坐标,也可以输出文本行区域的坐标,其输出的信息更加丰富,可以满足客户更大的需求。但现有的字符级文本检测的算法受参数以及所在的复杂的中文文本场景的影响,分割的字符边框会出现过度分割或欠分割现象,分别对应于如图4的矩形框和加黑矩形框。
发明内容
针对上述问题,本发明提出了一种基于图像矩矫正的深度学习文本字符检测方法,所述方法包括以下步骤:
A:数据集准备,对所述数据集中随机采样的样本进行预标注,保存所述样本每个字符的box框;
B:人工修正预标注不准的所述box框,根据所述box框生成高斯热图形式的热图标签;
C:定义神经网络结构和损失函数losscross;
D:采用所述步骤C中的所确定的网络结构和损失函数losscross进行初步的预训练;
E:扩充实际场景的训练样本集;
F:对所述步骤E扩充后的训练样本集进行自适应二值化操作,计算每个字符的Hu矩特征向量,取向量均值作为字符的辅助标签;
G:修改损失函数形式,添加正则项分支,使用所述扩充后的训练样本集用修改后损失函数loss进行微调训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥高维数据技术有限公司,未经合肥高维数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011506599.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示面板以及显示装置
- 下一篇:检索图片的方法、装置和计算机设备
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序