[发明专利]基于深度恢复信息的物体分类方法有效
| 申请号: | 201810253677.4 | 申请日: | 2018-03-26 |
| 公开(公告)号: | CN108520535B | 公开(公告)日: | 2022-02-15 |
| 发明(设计)人: | 侯春萍;管岱;杨阳;郎玥;章衡光 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06T7/50 | 分类号: | G06T7/50;G06T7/90;G06N3/08;G06N3/04;G06V10/80 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 恢复 信息 物体 分类 方法 | ||
1.一种基于深度恢复信息的物体分类方法,其特征是,步骤如下:
(1)对数据集进行预处理,将数据库中保存深度信息的矩阵统一转化为深度图像格式,用于网络的训练及生成深度图的可视化,并且将彩色图像与对应的深度图像组成图像对,构建10折交叉验证,用于网络的训练与结果评估;
(2)构建模型中的深度恢复模型,采用卷积层-激活函数层-批量归一化层BatchNorm作为网络的组成单元,多层堆叠成最终的模型;
(3)训练分别接收RGB和深度图像作为输入的两个图像分类模型,采用卷积神经网络AlexNet作为基准网络,分别以RGB图像和真实深度图像作为输入,训练两个图像分类模型,作为实验的基准线以及为最后的融合模型提供预训练参数,将RGB输入分类网络称之为网络1,深度图像输入的分类网络称之为网络2;
(4)构建最终的融合模型并进行训练和测试,将步骤(2)和步骤(3)训练好的模型以适当的方式融合为一个图像分类模型,使之能够只接受RGB图像即完成图像分类任务;将步骤(3)中的网络1和网络2用特征融合的方式连接起来,并且将步骤二中深度图像模型的输出作为步骤三中网络2的输入,完成三路网络的融合;
最后的模型由共15层卷积层的编码器,和3层反卷积层加1层卷积层构成的解码器组成,除了第一层卷积层采用7×7卷积核之外,其余的卷积层均使用卷积核大小为3,步长为1,扩充尺寸为1的参数结构;编码器由三个组成单元构成,第一个组成单元由卷积核大小为7×7,步长为2的卷积层以及3×3的最大池化层组成,分别完成两次下采样,第二个组成单元全部由6层输出特征通道数为64的3×3卷积层构成,再加上一层7×7的最大池化层最为下采样,第二个组成单元全部由输出通道数为128的3×3卷积层构成,并在此基础上增加跳跃连接结构,将编码器每相邻两层的输出特征图直接相加起来,连接起来,以增加解码器的特征图的重复利用,以及梯度的跨层流动,再进行解码的反卷积操作,解码器由3层反卷积层及1层卷积核尺寸为3,步长为1,补充边长为1的卷积层组成;三层反卷积层的卷积核尺寸都设置为4,步长为2,补充边长为1,每层依次将特征图尺寸上采样两倍,特征通道数量削减一半,将特征通道数量由128削减为16,最后一层卷积层保持特征图尺寸不变,特征通道个数为1,以完成彩色图到单通道深度图的映射;在大规模数据集中训练好的图像分类模型对于一副图像有着优良的特征提取功能,并且在模型的前端对图像低层特征有着良好的提取功能,在网络的后端对目标的类别有着良好的特征提取功能,图像的低层特征对于深度恢复任务较为重要,因此利用迁移学习的方法进一步提升模型性能,在完成深度恢复模型的构建之后,将一个34层的残差网络的前15层的参数赋给本模型,利用优良的参数初始化方法减小训练的时间,减小过拟合的风险,并且提升深度恢复的效果,深度恢复模型的损失函数采用一范数的形式;
构建模型中的深度恢复模型,利用编码器-解码器结构的思想,构建由卷积层-反卷积层组合的深度恢复网络结构,采用卷积层-激活函数层-批量归一化层作为网络的组成单元,多层堆叠成最终的模型,通过网络结构合理配置,以及损失函数的选取建立回归模型,并且利用预训练模型的初始化参数,提升深度恢复模型的性能,训练好的深度恢复模型能够从单幅彩色平面图像恢复出较高质量的深度图像;
首先仍基于真实的彩色图像和深度图像,先将步骤三得到的网络1和网络2融合起来,然后再考虑用深度恢复的模型代替真实深度图像,基于多模态数据分类的模型融合方式采用特征级融合,即是在网络的中间过程将两种图像的特征融合起来,两种图像分别经过两个前端的子网络,分别提取出各自模态的特征,在网络的中间过程融合起来,进而进行分类;
(5)将步骤四训练好的融合网络迁移到自然图像的分类数据集,采用两种方式重新训练融合之后的模型,一是直接用步骤四的模型测试自然图像数据集,记录分类结果;二是使用在自然图像数据集中训练好的RGB模型替换步骤四中的RGB模型,重新训练整个融合模型,再进行测试;
(6)对比模型在两个公开数据集上图像分类的效果以及可视化,评估引入深度信息后对于模型性能的提升效果,并且对深度恢复之后的图像进行可视化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810253677.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自适应多模融合立体匹配算法
- 下一篇:一种基于光度视差的双目深度获取方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





