[发明专利]一种基于注意力模块的图像质量评价方法在审
| 申请号: | 202011558747.0 | 申请日: | 2020-12-25 |
| 公开(公告)号: | CN112634238A | 公开(公告)日: | 2021-04-09 |
| 发明(设计)人: | 杨光义;宋双燕楠;赵子龙;王斯婷 | 申请(专利权)人: | 武汉大学 |
| 主分类号: | G06T7/00 | 分类号: | G06T7/00 |
| 代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 许莲英 |
| 地址: | 430072 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 模块 图像 质量 评价 方法 | ||
1.一种基于注意力模块的图像质量评价方法,其特征在于,包括以下步骤:
步骤1:将训练集中每张原始图像裁剪成多个n×n大小的子图像,并对每一张子图像依次进行归一化处理得到归一化之后的子图像,通过人工评分得到原始图像的质量分数目标值;
步骤2:利用双分支卷积神经网络建立回归网络模型,将归一化之后的子图像依次输入回归网络模型中,得到原始图像的质量分数预测值,通过原始图像的质量分数预测值与原始图像的质量分数目标值构建损失函数,利用损失函数对双分支卷积神经网络建立回归网络模型进行优化训练,得到训练后的双分支卷积神经网络,建立回归网络模型;
步骤3:将待评价图像经过步骤1处理后得到待评价图像的多张子图像,将待评价图像的多张子图像依次输入训练后的双分支卷积神经网络建立的回归网络模型中,最终得到待评价图像的质量评分。
2.根据权利要求1所述的基于注意力模块的图像质量评价方法,其特征在于:
步骤1所述将原始图像裁剪为n×n个子图像,具体为:
以训练集中的第k张原始图像pk的左下角作为原点建立平面直角坐标系,则大小为Xk×Yk的原始图像四个顶点的坐标依次为:(0,0),(Xk,0),(Xk,Yk),(Xk,Yk);
第k张原始图像中第i行第j列的子图像定义为:pk,i,j;
从原点开始,连续不重叠截取n×n像素大小的区域作为子图像,pk,i,j四个顶点的坐标依次为:
(i·n,j·n),((i+1)·n,j·n),((i+1)·n,(j+1)·n),(i·n,(j+1)·n);
其中,
若原始图像有剩余未裁剪部分,则让裁剪区域与图像边界线齐平,向图像内侧取n×n大小区域;
若pk,i,j四个顶点的坐标依次为:
(Xk-n,j·n),(Xk,j·n),(Xk,(j+1)·n),(Xk-n,(j+1)·n);
若pk,i,j四个顶点的坐标依次为:
(i·n,Yk-n),((i+1)·n,Yk-n),((i+1)·n,Yk),(i·n,Yk);
若pk,i,j四个顶点的坐标依次为:
(Xk-n,Yk-n),(Xk,Yk-n),(Xk-n,Yk),(Xk,Yk);
所述步骤S1中子图像经归一化具体为:
用1/9[111;111;111]对pk,i,j进行卷积,得到第k张原始图像中第i行第j列的子图像均值三阶张量即pk,i,j,mean;
对子图像pk,i,j各点进行平方操作,得到第k张原始图像中第i行第j列的子图像的平方三阶张量即pk,i,j,square;
用1/9[111;111;111]对pk,i,j,square进行卷积,得到第k张原始图像中第i行第j列的子图像的均值三阶张量即pk,i,j,square,mean;
对pk,i,j,mean各点进行平方操作,得到第k张原始图像中第i行第j列的子图像的平方三阶张量即pk,i,j,mean,square;
计算第k张原始图像中第i行第j列的子图像的方差三阶张量为:
pk,i,j,var=pk,i,j,square,mean-pk,i,j,mean,square
找出方差三阶张量pk,i,j,var中的最大值pk,i,j,var_max;
得到第k张原始图像中第i行第j列的归一化之后的子图像为:
步骤1所述第k张图像的质量分数目标值为:yk。
3.根据权利要求1所述的基于注意力模块的图像质量评价方法,其特征在于:
步骤2所述的双分支卷积神经网络由注意力残差网络、注意力增强VGG16网络、特征融合网络、全连接层组成;
所述注意力残差网络与所述注意力增强VGG16网络并行连接,进一步与特征融合网络、全连接层依次串行连接;
所述复合注意力残差网络由多个残差单元串联组成;
复合注意力残差网络的输入为第k张原始图像中第i行第j列的归一化之后的子图像pk,i,j,norm即为第一个残差单元的输入,最后一个残差单元的输出即为复合注意力残差提取的图像特征;
第k张原始图像中第i行第j列的子图像的第l个残差单元的操作为:
第k张原始图像中第i行第j列的子图像的第l个残差单元的输入的三阶张量Ik,i,j,l,input1通过多层卷积层卷积得到第k张原始图像中第i行第j列的子图像的第l个残差单元的中间特征fk,i,j,l,其中每层卷积层均包含numk,i,j,l个3×3卷积核;
利用CBAM算法获得的通道和空间权重对特征fk,i,j,l加权得到三阶张量Fk,i,j,l1,三阶张量Fk,i,j,l1即为第k张原始图像中第i行第j列的子图像的第l个残差单元的残差;
利用PSA算法生成的注意力权重对第k张原始图像中第i行第j列的子图像的第l个残差单元的输入的三阶张量Ik,i,j,l,input1加权得到三阶张量Fk,i,j,l2,三阶张量Fk,i,j,l2即为第k张原始图像中第i行第j列的子图像的第l个残差单元的点注意力特征;
将Fk,i,j,l1与Fk,i,j,l2相加得到第k张原始图像中第i行第j列的子图像的第l个残差单元的输出的三阶张量Ik,i,j,l,output1;
其中,复合注意力残差网络第l个残差单元中每层卷积层的卷积核权重为待寻优参数,l∈[1,NUMA];NUMA为复合注意力残差网络中残差单元的数量;
所述注意力增强VGG16网络由一层卷积核大小为3×3的浅层卷积层与多个注意力增强单元串联组成;
注意力增强VGG16网络的输入为第k张原始图像中第i行第j列的归一化之后的子图像即pk,i,j,norm,pk,i,j,norm经过浅层卷积层滤波得到第k张原始图像中第i行第j列的滤波后的子图像即pk,i,j,filter;
pk,i,j,filter为第k张原始图像中第i行第j列的子图像的第一个注意力增强单元的输入,第k张原始图像中第i行第j列的子图像的最后一个注意力增强单元的输出即为注意力增强VGG16网络提取的第k张原始图像中第i行第j列的子图像的图像特征;
第k张原始图像中第i行第j列的子图像的第r个注意力增强单元的定义为:
第k张原始图像中第i行第j列的子图像的第r个注意力增强单元输入的三阶张量即Ik,i,j,r,input2通过多层卷积层卷积得到第k张原始图像中第i行第j列的子图像的第r个注意力增强单元的中间特征即f′k,i,j,r,其中每层卷积包含numk,i,j,r个3×3卷积核;
将特征f′k,i,j,r经过最大池池化,得到第k张原始图像中第i行第j列的子图像的第r个注意力增强单元的最大池化特征即f′k,i,j,r,max;
利用CBAM算法获得的通道和空间权重对特征f′k,i,j,r,max加权得到第k张原始图像中第i行第j列的子图像的第r个注意力增强单元的输出的三阶张量Ik,i,j,r,output2;
其中,注意力增强VGG16网络第r个注意力增强单元中每层卷积层的卷积核权重为待寻优参数,r∈[1,NUMB];NUMB为注意力增强VGG16网络中注意力增强单元的数量;;
所述特征融合网络,对复合注意力残差网络提取的第k张原始图像中第i行第j列的子图像的图像特征和注意力增强VGG16网络提取的第k张原始图像中第i行第j列的子图像的图像特征进行融合得到第k张原始图像中第i行第j列的子图像的最终特征向量zk,i,j:
注意力增强VGG16网络提取的第k张原始图像中第i行第j列的子图像的图像特征fk,i,j,B经过最大池池化以得到与复合注意力残差网络提取的第k张原始图像中第i行第j列的子图像的图像特征fk,i,j,A尺寸相同的第k张原始图像中第i行第j列的子图像的最大池化特征fk,i,j,B1;
利用Softmax函数对fk,i,j,B1处理得到第k张原始图像中第i行第j列的子图像的函数处理特征fk,i,j,B2:
将fk,i,j,A和fk,i,j,B2点乘得到第k张原始图像中第i行第j列的子图像的乘积三阶张量bk,i,j:
bk,i,j,=fk,i,j,A·fk,i,j,B2
将fk,i,j,A和fk,i,j,B分别拉伸为第k张原始图像中第i行第j列的子图像的拉伸矩阵和拉伸矩阵
将xk,i,j,1和xk,i,j,2T相乘得到第k张原始图像中第i行第j列的子图像的乘积矩阵
将矩阵ck,i,j和三阶张量bk,i,j分别经过平均池池化后拉伸为第k张原始图像中第i行第j列的子图像的拉伸向量zk,i,j,1和拉伸向量xk,i,j;
对向量xk,i,j进行矩归一化得到第k张原始图像中第i行第j列的子图像的矩归一化向量yk,i,j:
对向量yk,i,j进行L2归一化得到第k张原始图像中第i行第j列的子图像的L2归一化向量zk,i,j,2:
将zk,i,j,1和zk,i,j,2简单拼接即可得到第k张原始图像中第i行第j列的子图像经融合后的最终的特征向量zk,i,j;
其中,M为复合注意力残差网络提取的图像特征的尺寸,N为注意力增强VGG16网络提取的图像特征的尺寸,T为图像特征的通道数;
其中,将第k张原始图像中第i行第j列的子图像经融合后的最终的特征向量zk,i,j送入全连接层,结合激活函数ReLU,将激活后的融合特征zk,i,j回归到第k张原始图像中第i行第j列的子图像的分数指标f(xk,i,j),将第k张原始图像的多张子图像的分数指标取平均值得到最终第k张原始图像的分数指标f(xk);
其中,全连接层的卷积核的权重需经过学习不断更新迭代以达到最优值;
步骤2所述的损失函数为:
在这其中,f(xk)为训练集送入网络的第k张原始图像的质量分数预测值,yk为第k张原始图像的质量分数目标值;
步骤2所述利用损失函数对双分支卷积神经网络建立回归网络模型进行优化训练为:使用Adam算法作为优化函数来更新网络参数;
其中,θt表示第t个网络参数,α表示步长,为一阶矩的偏差,为二阶矩的偏差,∈为一用于数值稳定的常数;迭代过程中,更新的规则如下:
其中,本发明中复合注意力残差网络和注意力增强VGG16网络的每一层的每一个卷积核的权重,以及全连接层的卷积核的权重均为需要更新的网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011558747.0/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





