[发明专利]一种基于双学习网络的立体图像视觉显著提取方法有效
申请号: | 201810981210.1 | 申请日: | 2018-08-27 |
公开(公告)号: | CN109409380B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 周武杰;蔡星宇;周扬;邱薇薇;张宇来;向坚 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 网络 立体 图像 视觉 显著 提取 方法 | ||
1.一种基于双学习网络的立体图像视觉显著提取方法,其特征在于包括以下步骤:
步骤一:选择一个包含有人类注视图及其对应的立体图像的数据库;然后将数据库中的每幅人类注视图缩放至80×60尺寸,将数据库中的每幅人类注视图对应的立体图像的左视点彩色图像和对应的立体图像的左视差图像均缩放至640×480尺寸;再将所有80×60尺寸的人类注视图、所有640×480尺寸的左视点彩色图像、所有640×480尺寸的左视差图像构成训练集,将训练集中的第k幅80×60尺寸的人类注视图记为将训练集中的第k幅左视点彩色图像记为将训练集中的第k幅左视差图像记为与和对应;其中,k为正整数,1≤k≤K,K表示数据库中包含的人类注视图的总幅数,也为数据库中包含的立体图像的总幅数,K≥50,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,1≤x80≤80,1≤y60≤60,1≤x640≤640,1≤y480≤480;
步骤二:利用VGG网络模型中的特征提取技术构建深度学习模型,记为MS,其中,深度学习模型的第1个网络块至第5个网络块用于提取彩色特征、第6个网络块至第8个网络块用于提取视差特征、第9个网络块用于融合彩色特征和视差特征、第10个网络块用于进行位置偏好学习、第11个网络块用于进行卷积学习、第12个网络块用于视觉显著特征融合;
所述的步骤二的具体过程如下:
步骤A:构建深度学习模型的第1个网络块至第5个网络块,第1个网络块至第5个网络块用于提取彩色特征;
第1个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第2个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第3个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第4个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu,最大池化层的步长为(1,1),1≤k≤K;
第5个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为512、激活函数均为relu,1≤k≤K;
步骤B:构建深度学习模型的第6个网络块至第8个网络块,第6个网络块至第8个网络块用于提取视差特征;
第6个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x640,y480)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,1≤x320≤320,1≤y240≤240,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为64、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第7个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x320,y240)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,1≤x160≤160,1≤y120≤120,第一卷积层和第二卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为128、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
第8个网络块包括四层,第一层为第一卷积层、第二层为第二卷积层、第三层为第三卷积层、第四层为最大池化层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为第三卷积层的输入为将第三卷积层的输出记为最大池化层的输入为将最大池化层的输出记为其中,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x160,y120)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60,第一卷积层、第二卷积层和第三卷积层的卷积核的大小均为(3,3)、卷积步长均为(1,1)、卷积核的数目均为256、激活函数均为relu,最大池化层的步长为(2,2),1≤k≤K;
步骤C:构建深度学习模型的第9个网络块,第9个网络块用于融合彩色特征和视差特征;
第9个网络块包括连接层,连接层通过通道数叠加的方式融合彩色特征和视差特征,连接层的输入为将连接层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,1≤k≤K;
步骤D:构建深度学习模型的第10个网络块,第10个网络块用于进行位置偏好学习;
第10个网络块包括三层,第一层为第一卷积层、第二层为第二卷积层、第三层为位置偏好学习层,第一卷积层的输入为将第一卷积层的输出记为第二卷积层的输入为将第二卷积层的输出记为位置偏好学习层的输入为将位置偏好学习层的输出记为的获取过程为:将8×6尺寸的可学习参数图记为{Ipm(x8,y6)};然后利用双线性插值方法将{Ipm(x8,y6)}经学习后得到的参数图放大到80×60尺寸,得到偏好参数图,记为{Ipa(x80,y60)};再将{Ipa(x80,y60)}中的每个像素点的像素值逐像素乘以中对应像素点的像素值,得到其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为320、激活函数为relu,第二卷积层的卷积核的大小为(3,3)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu,Ipm(x8,y6)表示{Ipm(x8,y6)}中坐标位置为(x8,y6)的像素点的像素值,1≤x8≤8,1≤y6≤6,Ipa(x80,y60)表示{Ipa(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤k≤K;
步骤E:构建深度学习模型的第11个网络块,第11个网络块用于进行卷积学习;
第11个网络块包括十二层,第一层为Dropout层、第二层为第一卷积层、第三层为第一最大池化层、第四层为第二卷积层、第五层为第二最大池化层、第六层为第三卷积层、第七层为第四卷积层、第八层为第五卷积层、第九层为第一上采样层、第十层为第六卷积层、第十一层为第二上采样层、第十二层为第七卷积层,Dropout层的输入为将Dropout层的输出记为第一卷积层的输入为将第一卷积层的输出记为第一最大池化层的输入为将第一最大池化层的输出记为第二卷积层的输入为将第二卷积层的输出记为第二最大池化层的输入为将第二最大池化层的输出记为第三卷积层的输入为将第三卷积层的输出记为第四卷积层的输入为将第四卷积层的输出记为第五卷积层的输入为将第五卷积层的输出记为第一上采样层的输入为第一上采样层采用双线性插值方法,将第一上采样层的输出记为第六卷积层的输入为将第六卷积层的输出记为第二上采样层的输入为第二上采样层采用双线性插值方法,将第二上采样层的输出记为第七卷积层的输入为将第七卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,Dropout层的连接参数为0.5,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,1≤x40≤40,1≤y30≤30,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,1≤x20≤20,1≤y15≤15,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x20,y15)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x40,y30)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层的卷积核的大小为(5,5)、卷积步长为(1,1)、卷积核的数目为64、激活函数为relu,第一最大池化层和第二最大池化层的步长为(2,2),第一上采样层和第二上采样层的上采样放大比例为(2,2),1≤k≤K;
步骤F:构建深度学习模型的第12个网络块,第12个网络块用于视觉显著特征融合;
第12个网络块包括两层,第一层为特征融合层、第二层为卷积层,特征融合层的输入为和将特征融合层的输出记为卷积层的输入为将卷积层的输出记为其中,表示中坐标位置为(x80,y60)的像素点的像素值,表示中坐标位置为(x80,y60)的像素点的像素值,卷积层的卷积核的大小为(1,1)、卷积步长为(1,1)、卷积核的数目为1、激活函数为relu,1≤k≤K;
至此构建得到深度学习模型MS;
步骤三:以训练集中的人类注视图为监督,以训练集中的左视点彩色图像和左视差图像为输入参数,对MS进行训练,将训练得到的模型记为MT;其中,训练过程中使用的loss函数为mse函数,使用SGD方法进行MS的梯度下降训练,学习率设置为0.0005;
步骤四:将待视觉显著提取的立体图像的左视点彩色图像和左视差图像对应记为{ILt(xLt,yLt)}和{IDt(xDt,yDt)};然后将{ILt(xLt,yLt)}缩放至640×480尺寸,将得到的图像记为{Ilt(x640,y480)};同样,将{IDt(xDt,yDt)}缩放至640×480尺寸,将得到的图像记为{Idt(x640,y480)};其中,ILt(xLt,yLt)表示{ILt(xLt,yLt)}中坐标位置为(xLt,yLt)的像素点的像素值,IDt(xDt,yDt)表示{IDt(xDt,yDt)}中坐标位置为(xDt,yDt)的像素点的像素值,1≤xLt≤W',1≤yLt≤H',1≤xDt≤W',1≤yDt≤H',W'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的宽度,H'表示{ILt(xLt,yLt)}或{IDt(xDt,yDt)}的高度,Ilt(x640,y480)表示{Ilt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值,Idt(x640,y480)表示{Idt(x640,y480)}中坐标位置为(x640,y480)的像素点的像素值;
步骤五:将{Ilt(x640,y480)}和{Idt(x640,y480)}作为输入参数,输入到MT中,得到待视觉显著提取的立体图像的视觉显著图像,记为{IOt(x80,y60)};其中,IOt(x80,y60)表示{IOt(x80,y60)}中坐标位置为(x80,y60)的像素点的像素值,1≤x80≤80,1≤y60≤60。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810981210.1/1.html,转载请声明来源钻瓜专利网。