[发明专利]一种基于改进深度学习OCR的工业文本检测识别方法在审

申请号：	202210419980.3	申请日：	2022-04-21
公开（公告）号：	CN114724157A	公开（公告）日：	2022-07-08
发明（设计）人：	李勃;赵宇迪;张卓凡;胡斌浩	申请（专利权）人：	南京大学
主分类号：	G06V30/412	分类号：	G06V30/412;G06K9/62;G06N20/00;G06V10/22;G06V10/774
代理公司：	南京天翼专利代理有限责任公司 32112	代理人：	奚铭
地址：	210023 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进深度学习 ocr 工业文本检测识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进深度学习OCR的工业文本检测识别方法，其特征是通过分级式训练检测识别模型，对工业检测场景下文本进行识别，采集工业检测现场的文本图片，将图片分为训练集和验证集，训练集用于分级式训练，验证集用于检验每轮训练效果，具体为：以预训练的文本检测模型为基础模型，由验证集进行检验，如果基础模型达不到所要求的识别精度，则将现场采集的文本图片进行标注后作为训练集，在基础模型基础上冻结特征层，通过迁移学习继续训练，提升精度，如果仍未达到所要求的识别精度，再通过蒸馏学习继续训练，提升精度。

2.根据权利要求1所述的一种基于改进深度学习OCR的工业文本检测识别方法，其特征是蒸馏学习训练后仍未达到所要求的识别精度，则将蒸馏学习中的教室模型替换为迁移模型继续训练。

3.根据权利要求1或2所述的一种基于改进深度学习OCR的工业文本检测识别方法，其特征是通过合成仿工业场景方式得到数据集预训练基础模型，采集各种工业场景图片，截取识别的关键区域，得到背景图库，将文字变换后粘贴到背景图，合成为图片构成数据集。

4.根据权利要求3所述的一种基于改进深度学习OCR的工业文本检测识别方法，其特征是合成仿工业场景方式包括以下步骤：

1)文本生成，选用多种字体，文本的内容通过在需要训练的字符中随机生成，长度在5-25不等，通过生成足够多的样本，确保字符的分布均匀与全面多样；

2)背景裁切，从背景图中随机裁剪出尺寸一致的背景小块，用于后续将文本粘贴在上面，随机裁剪用于获得不同光照角度和强度的各种背景图，丰富数据集；

3)合成图片，将背景小块分为明暗两个部分，在暗色背景上随机生成像素值在230-255的文字，在亮色背景上随机生成像素值在0-25之间的文字；

4)在合成图片随机生成文字时进行数据增强，包括：

制造文本间隔仿造工业场景中经常出现的空格情况；

投影变换仿造工业场景中经常出现的相机角度有偏差的情况；

通过扩充边界模拟检测部分效果不佳的情况；

通过横竖线条污染仿造工业场景中有时出现的干扰情况；

通过浮雕效果仿造工业场景中有时出现的文本凹凸情况；