[发明专利]一种基于图像文本的仪表检测分类方法有效
| 申请号: | 202110855223.6 | 申请日: | 2021-07-28 |
| 公开(公告)号: | CN113673509B | 公开(公告)日: | 2023-06-09 |
| 发明(设计)人: | 田联房;王昭霖;杜启亮 | 申请(专利权)人: | 华南理工大学;华南理工大学珠海现代产业创新研究院 |
| 主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/146;G06V30/148;G06V10/82;G06N3/0464 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 图像 文本 仪表 检测 分类 方法 | ||
1.一种基于图像文本的仪表检测分类方法,其特征在于,包括以下步骤:
1)使用仪表图像对表盘位置进行标注构建仪表定位数据集,并将仪表定位数据集分为训练集和测试集,再装载参数使用训练集训练改进YOLO网络,训练完毕后得到最优的改进YOLO网络,将测试集输入最优的改进YOLO网络,输出表盘图像并将表盘图像裁剪出来;其中,改进YOLO网络是将骨干网络优化为mobilenet轻量化网络以减少网络参数和计算量,提高运算速度;
2)对步骤1)裁剪出来的表盘图像中字符位置进行标注构建字符检测数据集,并将字符检测数据集分为训练集和测试集,再装载训练参数使用训练集训练改进EAST网络,训练完毕后得到最优的改进EAST网络,将测试集输入最优的改进EAST网络,输出字符检测数据集中的字符位置并裁剪为字符图像;其中,改进EAST网络是将骨干网络换为VGG以提高网络检测准确性,其输出层结构修改预测模块只用头部元素预测顶点,以提高对长字符的预测性能;
所述改进EAST网络的具体情况如下:
a、构建特征提取网络,其结构如下:
第一层为组合卷积模块2-B,它由两个组合卷积模块2-A和一个最大池化层组成,组合卷积模块2-A由一个零填充层、一个卷积层和一个激活层组成;
第二层为组合卷积模块2-B,它由两个组合卷积模块2-A和一个最大池化层组成;
第三层为组合卷积模块2-C,它由三个组合卷积模块2-A和一个最大池化层组成;
第四层为组合卷积模块2-C,它由三个组合卷积模块2-A和一个最大池化层组成;
第五层为组合卷积模块2-C,它由三个组合卷积模块2-A和一个最大池化层组成;
b、构建特征融合网络,其结构如下:
第一层为输入融合模块2-G,它由一个上采样层和一个张量拼接层组成;
第二层为组合卷积模块2-E,它由两个批归一化层、一个组合卷积模块2-D和一个组合卷积模块2-A组成;其中组合卷积模块2-D由一个零填充层、一个卷积层和一个激活层组成;
第三层为输入融合模块2-G,它由一个上采样层和一个张量拼接层组成;
第四层为组合卷积模块2-E,它由两个批归一化层、一个组合卷积模块2-D和一个组合卷积模块2-A组成;
第五层为输入融合模块2-G,它由一个上采样层和一个张量拼接层组成;
第六层为组合卷积模块2-F,它由三个批归一化层、一个组合卷积模块2-D和两个组合卷积模块2-A组成;
c、构建预测网络,其结构如下:
第一层分为三个分支,第一个分支由一个组合卷积模块2-D组成;第二个分支由一个组合卷积模块2-D组成;第三个分支由一个组合卷积模块2-D组成;
第二层为输入融合模块,它由第一层的三个分支拼接组成;
d、设置损失函数有类别损失函数、几何形状损失函数和角度损失函数;
类别损失函数公式如下:
式中,LS代表类别损失,β表示权重,是预测的类别,Y*是真实的类别;
几何形状损失函数公式如下:
式中,LAABB代表几何形状损失,表示预测四边形文本框AABB的几何形状,R*表示真实的四边形文本框AABB的几何形状,IoU表示交并比;
角度损失函数公式如下:
式中,是角度损失,是对旋转角的预测值,θ*是旋转角的实际值;
装载训练参数训练改进EAST网络,训练参数的设置如下:设置训练优化器为Adam、初始学习率为0.001、最大训练周期为500以及批次大小为8;并设置验证集间隔检测训练精确度,训练完成标志为达到最大训练周期或均交并比满足要求,训练完成达到最优后保存网络;
将测试集输入最优的改进EAST网络得到文本位置,并裁剪为字符图像;
3)对步骤2)裁剪好的字符图像中字符信息进行标注构建字符识别数据集,并将字符识别数据集分为训练集和测试集,再装载训练参数使用训练集训练CRNN网络,训练完毕后得到最优的CRNN网络,将测试集输入最优的CRNN网络,输出字符信息;
4)将步骤3)输出的字符信息拼接为文本,再将文本对应的仪表类型进行标注构建文本分类数据集,将文本分类数据集分为训练集和测试集,再装载训练参数使用训练集训练TextCNN网络,训练完毕后得到最优的TextCNN网络,将测试集输入最优的TextCNN网络输出文本对应的仪表类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学;华南理工大学珠海现代产业创新研究院,未经华南理工大学;华南理工大学珠海现代产业创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110855223.6/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





