[发明专利]一种多模态特征融合的文本指导图像压缩噪声去除方法在审

申请号：	202111537614.X	申请日：	2021-12-15
公开（公告）号：	CN114283080A	公开（公告）日：	2022-04-05
发明（设计）人：	颜波;谭伟敏;姜旭浩;林青;马晨曦	申请（专利权）人：	复旦大学
主分类号：	G06T5/00	分类号：	G06T5/00;G06T5/50;G06N3/04;G06N3/08
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;陆尤
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多模态特征融合文本指导图像压缩噪声去除方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多模态特征融合的文本指导图像压缩噪声去除方法，其特征在于，构造深度卷积神经网络作为生成器，以图像的文本描述作为先验，同时引入判别器、感知质量预测模块和图像语义编码模块来辅助生成器去除压缩噪声，使得生成器生成具有细粒度纹理的图像；具体步骤如下：

(1)从图像对应的文本中提取全局和局部特征

文本描述是图像本身包含的外部描述信息，用于压缩图像的语义信息增强；将文本描述输入到预训练的文本编码器，提取文本的语义信息；其中，文本编码器是一个循环神经网络，文本编码器以当前单词作为输入，通过循环可以使得单词信息从当前步传递到下一步，从而更好地获得文本描述的语义，并获取相应的单词和句子特征；单词特征和句子特征分别代表文本的局部和全局信息；

(2)将压缩图像输入到生成器

通过编码得到压缩图像的深层特征；具体地，生成器采用U-Net的架构，利用七个卷积层和三个残差块提取不同尺度的压缩图像特征；其中，大小为128×32×32的图像特征用于全局特征融合，大小为64×32×32、64×64×64和64×128×128的图像特征用于局部特征融合；生成器网络由卷积层、残差块、连接层、局部融合模块和全局融合模块组成；

(3)将句子特征和图像特征共同输入到全局融合模块

全局融合模块以图像局部特征和句子特征作为输入，采用一个卷积层和一个全局池化层处理图像特征，获得图像全局特征，并将其与句子特征进行拼接；再使用两个全连接层进一步提取融合后的全局特征，通过将融合特征进行特征值复制，恢复到输入图像大小，再将其与卷积处理后的图像特征进行拼接，最后利用一个卷积层获得文本指导的全局特征；

(4)将单词特征和图像特征共同输入到局部融合模块

生成器一共使用三个局部融合模块处理不同尺度的图像特征和单词特征的融合；其中，局部融合模块以图像的局部特征和单词特征作为输入，将图像局部特征进行变形，并将单词特征经过一个卷积层调整特征维度，使得两者可以进行矩阵计算，得到融合特征；利用融合特征和单词特征进行矩阵计算，使融合特征恢复到输入图像特征的尺寸；最后对特征进行变形和上采样，获得文本指导的局部特征；

(5)重建高质量结果

生成器利用二个卷积层和一个残差块进一步提取文本指导特征，重建出高质量结果；

(6)通过优化损失函数更新生成器、判别器的参数

在训练中，引入判别器、感知质量预测模块和图像语义编码模块来辅助生成器学习压缩图像增强任务；判别器以真实图像和重建图像作为输入，任务是区分重建图像是否真实；训练过程中，生成器的目标是生成真实的图像去欺骗判别器，而判别器的目标是辨别出重建结果和真实图像，形成动态的博弈，从而促使生成器可以生成更加真实的图像；同时，模型计算重建结果和真实图像之间的重构损失、对抗损失、对比损失和语义一致损失来获得生成器和判别器的梯度，并进行更新。

2.根据权利要求1所述的多模态特征融合的文本指导图像压缩噪声去除方法，其特征在于，

设真实图像为X＝{x₁，x₂，…，x_n}，对于训练集中的每一个图像x_i，它都有相应的文本描述t_i，以及相应的压缩图像c_i，生成器使用文本描述t_i的特征来增强压缩图像c_i，获得最终的重建图像r_i；

为了使重建图像和真实图像在像素级一致，引入像素级的重构损失函数，定义为：

L_R＝||r_i-x_i||₁, (1)

所述判别器作为二值分类器，用于区分真实图像和重建图像，通过对抗训练使得图像尽可能真实，对应的对抗损失函数定义为：

所述感知质量预测模块是一个可微的全参考图像感知质量预测模型f_IQA(·)，采用LPIPS模型，用于预测重建图像、压缩图像和真实图像的质量，通过对比三者的感知质量，提升图像的感知质量，对应的对比损失函数定义为：

其中，m是一个常数，避免分母为零；

所述图像语义编码模块是一个预训练模型，其由Inception网络和一个全连接层组成，目标是将图像特征和文本特征映射到同一个特征空间，为了约束重建图像和文本语义一致，采用最大后验概率来定义语义一致损失函数，具体为：

L_S＝-(logP(t_i|r_i)+logP(r_i|t_i)), (4)

训练时，网络优化更新的整体损失函数为：

L＝λ_RL_R+λ_GL_G+λ_CL_C+λ_SL_S, (5)

其中，L_R为重构损失，L_G为对抗损失，L_C为对比损失，L_S为语义一致损失，λ_R、λ_G、λ_C、λ_S为平衡不同损失的权重；