[发明专利]一种基于注意力模块的图像质量评价方法在审

申请号：	202011558747.0	申请日：	2020-12-25
公开（公告）号：	CN112634238A	公开（公告）日：	2021-04-09
发明（设计）人：	杨光义;宋双燕楠;赵子龙;王斯婷	申请（专利权）人：	武汉大学
主分类号：	G06T7/00	分类号：	G06T7/00
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	许莲英
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力模块图像质量评价方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力模块的图像质量评价方法，其特征在于，包括以下步骤：

步骤1：将训练集中每张原始图像裁剪成多个n×n大小的子图像，并对每一张子图像依次进行归一化处理得到归一化之后的子图像，通过人工评分得到原始图像的质量分数目标值；

步骤2：利用双分支卷积神经网络建立回归网络模型，将归一化之后的子图像依次输入回归网络模型中，得到原始图像的质量分数预测值，通过原始图像的质量分数预测值与原始图像的质量分数目标值构建损失函数，利用损失函数对双分支卷积神经网络建立回归网络模型进行优化训练，得到训练后的双分支卷积神经网络，建立回归网络模型；

步骤3：将待评价图像经过步骤1处理后得到待评价图像的多张子图像，将待评价图像的多张子图像依次输入训练后的双分支卷积神经网络建立的回归网络模型中，最终得到待评价图像的质量评分。

2.根据权利要求1所述的基于注意力模块的图像质量评价方法，其特征在于：

步骤1所述将原始图像裁剪为n×n个子图像，具体为：

以训练集中的第k张原始图像p_k的左下角作为原点建立平面直角坐标系，则大小为X_k×Y_k的原始图像四个顶点的坐标依次为：(0，0)，(X_k，0)，(X_k，Y_k)，(X_k，Y_k)；

第k张原始图像中第i行第j列的子图像定义为：p_k，i，j；

从原点开始，连续不重叠截取n×n像素大小的区域作为子图像，p_k，i，j四个顶点的坐标依次为：

(i·n，j·n)，((i+1)·n，j·n)，((i+1)·n，(j+1)·n)，(i·n，(j+1)·n)；

其中，

若原始图像有剩余未裁剪部分，则让裁剪区域与图像边界线齐平，向图像内侧取n×n大小区域；

若p_k，i，j四个顶点的坐标依次为：

(X_k-n，j·n)，(X_k，j·n)，(X_k，(j+1)·n)，(X_k-n，(j+1)·n)；

若p_k，i，j四个顶点的坐标依次为：

(i·n，Y_k-n)，((i+1)·n，Y_k-n)，((i+1)·n，Y_k)，(i·n，Y_k)；

若p_k，i，j四个顶点的坐标依次为：

(X_k-n，Y_k-n)，(X_k，Y_k-n)，(X_k-n，Y_k)，(X_k，Y_k)；

所述步骤S1中子图像经归一化具体为：

用1/9[111；111；111]对p_k，i，j进行卷积，得到第k张原始图像中第i行第j列的子图像均值三阶张量即p_{k，i，j，mean}；

对子图像p_k，i，j各点进行平方操作，得到第k张原始图像中第i行第j列的子图像的平方三阶张量即p_{k，i，j，square}；

用1/9[111；111；111]对p_{k，i，j，square}进行卷积，得到第k张原始图像中第i行第j列的子图像的均值三阶张量即p_{k，i，j，square，mean}；

对p_{k，i，j，mean}各点进行平方操作，得到第k张原始图像中第i行第j列的子图像的平方三阶张量即p_{k，i，j，mean，square}；

计算第k张原始图像中第i行第j列的子图像的方差三阶张量为：

p_{k，i，j，var}＝p_{k，i，j，square，mean}-p_{k，i，j，mean，square}

找出方差三阶张量p_{k，i，j，var}中的最大值p_{k，i，j，var_max}；

得到第k张原始图像中第i行第j列的归一化之后的子图像为：

步骤1所述第k张图像的质量分数目标值为：y_k。

3.根据权利要求1所述的基于注意力模块的图像质量评价方法，其特征在于：

步骤2所述的双分支卷积神经网络由注意力残差网络、注意力增强VGG16网络、特征融合网络、全连接层组成；

所述注意力残差网络与所述注意力增强VGG16网络并行连接，进一步与特征融合网络、全连接层依次串行连接；

所述复合注意力残差网络由多个残差单元串联组成；

复合注意力残差网络的输入为第k张原始图像中第i行第j列的归一化之后的子图像p_{k，i，j，norm}即为第一个残差单元的输入，最后一个残差单元的输出即为复合注意力残差提取的图像特征；

第k张原始图像中第i行第j列的子图像的第l个残差单元的操作为：

第k张原始图像中第i行第j列的子图像的第l个残差单元的输入的三阶张量I_{k，i，j，l，input1}通过多层卷积层卷积得到第k张原始图像中第i行第j列的子图像的第l个残差单元的中间特征f_{k，i，j，l}，其中每层卷积层均包含num_{k，i，j，l}个3×3卷积核；

利用CBAM算法获得的通道和空间权重对特征f_{k，i，j，l}加权得到三阶张量F_{k，i，j，l1}，三阶张量F_{k，i，j，l1}即为第k张原始图像中第i行第j列的子图像的第l个残差单元的残差；

利用PSA算法生成的注意力权重对第k张原始图像中第i行第j列的子图像的第l个残差单元的输入的三阶张量I_{k，i，j，l，input1}加权得到三阶张量F_{k，i，j，l2}，三阶张量F_{k，i，j，l2}即为第k张原始图像中第i行第j列的子图像的第l个残差单元的点注意力特征；

将F_{k，i，j，l1}与F_{k，i，j，l2}相加得到第k张原始图像中第i行第j列的子图像的第l个残差单元的输出的三阶张量I_{k，i，j，l，output1}；

其中，复合注意力残差网络第l个残差单元中每层卷积层的卷积核权重为待寻优参数，l∈[1，NUMA]；NUMA为复合注意力残差网络中残差单元的数量；

所述注意力增强VGG16网络由一层卷积核大小为3×3的浅层卷积层与多个注意力增强单元串联组成；

注意力增强VGG16网络的输入为第k张原始图像中第i行第j列的归一化之后的子图像即p_{k，i，j，norm}，p_{k，i，j，norm}经过浅层卷积层滤波得到第k张原始图像中第i行第j列的滤波后的子图像即p_{k，i，j，filter}；

p_{k，i，j，filter}为第k张原始图像中第i行第j列的子图像的第一个注意力增强单元的输入，第k张原始图像中第i行第j列的子图像的最后一个注意力增强单元的输出即为注意力增强VGG16网络提取的第k张原始图像中第i行第j列的子图像的图像特征；

第k张原始图像中第i行第j列的子图像的第r个注意力增强单元的定义为：

第k张原始图像中第i行第j列的子图像的第r个注意力增强单元输入的三阶张量即I_{k，i，j，r，input2}通过多层卷积层卷积得到第k张原始图像中第i行第j列的子图像的第r个注意力增强单元的中间特征即f′_{k，i，j，r}，其中每层卷积包含num_{k，i，j，r}个3×3卷积核；

将特征f′_{k，i，j，r}经过最大池池化，得到第k张原始图像中第i行第j列的子图像的第r个注意力增强单元的最大池化特征即f′_{k，i，j，r，max}；

利用CBAM算法获得的通道和空间权重对特征f′_{k，i，j，r，max}加权得到第k张原始图像中第i行第j列的子图像的第r个注意力增强单元的输出的三阶张量I_{k，i，j，r，output2}；

其中，注意力增强VGG16网络第r个注意力增强单元中每层卷积层的卷积核权重为待寻优参数，r∈[1，NUMB]；NUMB为注意力增强VGG16网络中注意力增强单元的数量；；

所述特征融合网络，对复合注意力残差网络提取的第k张原始图像中第i行第j列的子图像的图像特征和注意力增强VGG16网络提取的第k张原始图像中第i行第j列的子图像的图像特征进行融合得到第k张原始图像中第i行第j列的子图像的最终特征向量z_k，i，j：

注意力增强VGG16网络提取的第k张原始图像中第i行第j列的子图像的图像特征f_{k，i，j，B}经过最大池池化以得到与复合注意力残差网络提取的第k张原始图像中第i行第j列的子图像的图像特征f_{k，i，j，A}尺寸相同的第k张原始图像中第i行第j列的子图像的最大池化特征f_{k，i，j，B1}；

利用Softmax函数对f_{k，i，j，B1}处理得到第k张原始图像中第i行第j列的子图像的函数处理特征f_{k，i，j，B2}：

将f_{k，i，j，A}和f_{k，i，j，B2}点乘得到第k张原始图像中第i行第j列的子图像的乘积三阶张量b_k，i，j：

b_k，i，j，＝f_{k，i，j，A}·f_{k，i，j，B2}

将f_{k，i，j，A}和f_{k，i，j，B}分别拉伸为第k张原始图像中第i行第j列的子图像的拉伸矩阵和拉伸矩阵

将x_{k，i，j，1}和x_{k，i，j，2}^T相乘得到第k张原始图像中第i行第j列的子图像的乘积矩阵

将矩阵c_k，i，j和三阶张量b_k，i，j分别经过平均池池化后拉伸为第k张原始图像中第i行第j列的子图像的拉伸向量z_{k，i，j，1}和拉伸向量x_k，i，j；

对向量x_k，i，j进行矩归一化得到第k张原始图像中第i行第j列的子图像的矩归一化向量y_k，i，j：

对向量y_k，i，j进行L2归一化得到第k张原始图像中第i行第j列的子图像的L2归一化向量z_{k，i，j，2}：

将z_{k，i，j，1}和z_{k，i，j，2}简单拼接即可得到第k张原始图像中第i行第j列的子图像经融合后的最终的特征向量z_k，i，j；

其中，M为复合注意力残差网络提取的图像特征的尺寸，N为注意力增强VGG16网络提取的图像特征的尺寸，T为图像特征的通道数；

其中，将第k张原始图像中第i行第j列的子图像经融合后的最终的特征向量z_k，i，j送入全连接层，结合激活函数ReLU，将激活后的融合特征z_k，i，j回归到第k张原始图像中第i行第j列的子图像的分数指标f(x_k，i，j)，将第k张原始图像的多张子图像的分数指标取平均值得到最终第k张原始图像的分数指标f(x_k)；

其中，全连接层的卷积核的权重需经过学习不断更新迭代以达到最优值；

步骤2所述的损失函数为：

在这其中，f(x_k)为训练集送入网络的第k张原始图像的质量分数预测值，y_k为第k张原始图像的质量分数目标值；

步骤2所述利用损失函数对双分支卷积神经网络建立回归网络模型进行优化训练为：使用Adam算法作为优化函数来更新网络参数；

其中，θ_t表示第t个网络参数，α表示步长，为一阶矩的偏差，为二阶矩的偏差，∈为一用于数值稳定的常数；迭代过程中，更新的规则如下：

其中，本发明中复合注意力残差网络和注意力增强VGG16网络的每一层的每一个卷积核的权重，以及全连接层的卷积核的权重均为需要更新的网络参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011558747.0/1.html，转载请声明来源钻瓜专利网。