[发明专利]基于视频语义分割算法的损伤识别技术在审
| 申请号: | 202111513075.6 | 申请日: | 2021-12-12 |
| 公开(公告)号: | CN114155474A | 公开(公告)日: | 2022-03-08 |
| 发明(设计)人: | 菅政 | 申请(专利权)人: | 菅政 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 529226 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 视频 语义 分割 算法 损伤 识别 技术 | ||
1.基于视频语义分割算法的损伤识别技术,其特征在于:包括1)数据准备阶段、2)模型训练阶段、3)模型测试阶段、4)实际应用阶段;
1)数据准备阶段的步骤包括:
1.1)数据采集:用特定传感设备采集目标应用场景下的待识别视频,所述目标应用场景包括但是不限于路面损伤识别、金属材料表面损伤识别、陶瓷制品损伤识别,所述传感设备包括但不限于摄像机、扫描仪等具有拍摄功能的各种视频采集设备;
1.2)视频清洗:将步骤1.1)得到的视频逐帧进行筛选,去除非正常拍摄视频帧和重复视频帧;将清洗过的所有视频帧作为原图像保存,同时保存所有视频帧之间的时序关系;所述时序关系是指视频帧在视频中时间上的先后顺序关系;
1.3)视频帧标注:对步骤1.2)得到的所有视频帧逐个进行语义分割标注;在进行语义分割标注前需先确定损伤类别的总数,并赋予每个损伤类一个唯一的类别标签值;所述语义分割标注是指通过图像标注工具,生成和原图像分辨率相同的标签图像;所述标签图像中各个位置的像素点的像素值表示原图像中对应位置的像素点所属类别;所述类别标签值和所述标签图像中像素点的像素值之间是一对一关系;标注完成之后,每张图像和其对应的标签图像作为一个样本,所有的样本共同构成了一个数据集;
1.4)数据集划分:对步骤1.3)得到的数据集进行划分;原图像和其对应的标签图像作为一个样本,也是划分的最小单元;将数据集按照合适比例划分为训练集和测试集;所述合适比例包括但不限于训练集样本量比测试集样本量等于8比2、9比1;训练集可以再次划分出一个子集作为验证集,也可以不划分验证集;
2)模型训练阶段的步骤包括:
2.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
2.2)训练深度神经网络:
2.2.1)将训练集中所有样本的原图像分批输入所述深度神经网络模型中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;然后计算损失值对于所述深度神经网络模型中各个可训练参数的梯度;然后通过模型优化算法对所述深度神经网络模型中可训练参数进行调整;训练集中所有样本分批进行上述训练过程,所有批次结束后视作一个轮次;
2.2.2)如果存在验证集,那么每经过一个或者几个训练轮次,将所有验证集中样本的原图像分批输入所述深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
2.2.3)所述模型优化算法包括但是不限于Adam、SGD、RMSprop、Adagrad;模型优化过程涉及的超参数,包括但不限于学习率、权重衰减率;模型训练过程中可选择性地使用学习率衰减、权重衰减、早停等策略中的一种或者多种;通过手动搜索、随机搜索、网格搜索等方式获得设计超参数确定实验,重复步骤2.2.1)和2.2.2),找出最优的超参数组合;
2.2.4)如果存在验证集,则将验证集中所有样本扩充到训练集中,所述扩充操作完成后,验证集视为不存在;再次执行步骤2.2.1) ,并在训练过程中持续保存所述深度神经网络模型的最优参数;
3)模型测试阶段的步骤包括:
3.1)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
3.2)将步骤2.2.4)中保存的模型参数依次加载到搭建好的深度神经网络模型中进行测试评估;
3.3)将所有测试集中样本的原图像分批输入深度神经网络中,将所述深度神经网络模型的输出值和本批次的原图像对应的标签图像一同输入损失函数和性能评估函数中,得到损失值和评估指标值;
3.4)重复步骤3.2)、3.3),评估步骤2.2.4)中保存的所有模型参数,选出损失值最低或者评估指标值最高的参数供实际使用阶段使用;
4)实际应用阶段的步骤包括:
4.1)读取视频,直接从摄像头等设备中读取视频,或者从保存到本地的视频中读取视频;
4.2)搭建深度神经网络;所述深度神经网络可以分为四个模块,依次是特征提取子模块、特征扩张子模块、高层次语义上下文提取模块、特征传播模块;
4.3)将步骤3.4)中保存的模型参数加载到搭建好的深度神经网络模型中准备使用;
4.4)将4.1)中读取到的图像帧进行预处理之后输入到所述深度神经网络模型中,模型的输出就是所述图像帧对应的标签图像的预测值;从上述标签图像的预测值中可以获得以下信息:图像帧中是否含有损伤;含有哪些类型的损伤;损伤的位置;损伤所在的像素区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于菅政,未经菅政许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111513075.6/1.html,转载请声明来源钻瓜专利网。





