[发明专利]一种基于多级特征融合的视觉显著性预测方法在审
| 申请号: | 202211700268.7 | 申请日: | 2022-12-28 |
| 公开(公告)号: | CN116310357A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 薛轶天;王琪;颜成钢;高宇涵;孙垚棋;朱尊杰;陈楚翘;王鸿奎;王廷宇;殷海兵;张继勇;李宗鹏;赵治栋 | 申请(专利权)人: | 杭电(丽水)研究院有限公司 |
| 主分类号: | G06V10/32 | 分类号: | G06V10/32;G06V10/40;G06V10/774;G06V10/80;G06V10/82;G06N3/04 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 323010 浙江省丽水市莲都区南明山*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多级 特征 融合 视觉 显著 预测 方法 | ||
1.一种基于多级特征融合的视觉显著性预测方法,其特征在于,包括以下步骤:
S1、数据预处理;
S2、构建视觉显著性预测模型;
所述的视觉显著性预测模型,包括编码器模块、多感受野模块、层级间的特征融合模块以及输出集成模块;所述的编码器模块采用VGG16模型的前5层,去除全连接层以及最后的池化层;
S3、将预处理后的图像输入构建的视觉显著性预测模型,对模型进行训练;
S4、通过训练好的视觉显著性预测模型完成视觉显著性预测。
2.根据权利要求1所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,所述预处理包括零填充、尺寸调整以及图像标准化三部分;
1.1、零填充:
对图像进行零填充,使得调整后的每幅图像的高宽比均为3:4;从而保证图像在进行后续尺寸调整过程中能进行等比例的缩放;
1.2、尺寸调整;
将所有图像的尺寸统一为640×480;
1.3图像标准化;
对尺寸调整后的图像逐通道的进行标准化。
3.根据权利要求1所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,所述的视觉显著性预测模型采用的是编码器-解码器结构,其中编码器模块采用的是VGG16模型的前五层,分别是Encoder1、Encoder2、Encoder3、Encoder4和Encoder5,即去除掉最后的全连接层和最后一个池化层;由于去除了最后一个池化层,VGG16第四层和第五层的输出特征大小一致。
4.根据权利要求3所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,多感受野模块由三个分支构成,每个分支包含一个卷积,每个卷积均为3×3大小,空洞率分别设置为0,2,4,获得不同大小的感受野;将不同空洞率的卷积层输出进行串联,从而达到融合不同特征的目的;将融合后的特征进行全局平均池化来获得全局语义信息,并进行线性化操作,即1×1卷积操作,将融合后的1536通道的特征缩小为512通道的特征,以便于后续层级间进行特征融合。
5.根据权利要求4所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,为了恢复特征图像的分辨率的同时维持特征的鲁棒性和语义丰富性,在解码器部分采用了层级间的特征融合模块,实现深层特征和浅层特征之间的融合,层级间的特征融合模块由五层解码层构成,分别是Decoder1、Decoder2、Decoder3、Decoder4和Decoder5;解码层由通过三个由3×3卷积、批量归一化以及relu激活函数构成;将多感受野模块的输出特征和编码器模块的第五层的特征进行融合作为第一解码层Decoder1的输入,将第一解码层Decoder1的输出再与编码器模块的第四层的输出特征进行融合作为第二解码层Decoder2的输入,依次将解码层的输出与编码器模块的对应编码层的输出进行融合,实现深层特征和浅层特征之间的融合。
6.根据权利要求5所述的一种基于多级特征融合的视觉显著性预测方法,其特征在于,输出集成模块将层级间的特征融合模块的五个解码层的输出分别进行一个1×1的卷积操作,并将Decoder1-Decoder4解码层的输出进行上采样以保证和第五解码层Decoder5的输出的分辨率大小一致,然后将五层输出串联在一起,最后通过一个1×1的卷积操作得到最终的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭电(丽水)研究院有限公司,未经杭电(丽水)研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211700268.7/1.html,转载请声明来源钻瓜专利网。





