[发明专利]一种基于适应性注意力机制的多模态的图像风格迁移方法有效

申请号：	202010431594.7	申请日：	2020-05-20
公开（公告）号：	CN111696027B	公开（公告）日：	2023-04-07
发明（设计）人：	程深;潘力立	申请（专利权）人：	电子科技大学
主分类号：	G06T3/00	分类号：	G06T3/00;G06N3/045;G06N3/0475;G06N3/0464;G06N3/047;G06N3/048;G06N3/094
代理公司：	电子科技大学专利中心 51203	代理人：	陈一鑫
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于适应性注意力机制多模态图像风格迁移方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于适应性注意力机制的多模态的图像风格迁移方法，该方法包括：

步骤1：对数据集进行预处理；

获取edges2shoes数据集，edges2shoes数据集是包含鞋子轮廓以及真实鞋子图片，总共49825个图片队；再对数据集进行分类，鞋子轮廓为一类，真实鞋子为另一类，随机打乱顺序处理；最后对图片像素值进行归一化至范围[-1,1]；

步骤2：构建卷积神经网络和全连接神经网络；

1)构建卷积神经网络包括两个子网络，一个为生成器，另一个为判别器；生成器输入输出均为图片，而判别器输入为图片，输出为标量；生成器网络的前两层为2个下采样卷积块，之后接着9个残差网络块，最后再跟着2个上采样卷积块；判别器网络依次采用4个下采样卷积块，以及两个标准卷积块；

2)构建全连接网络输入大小为8维的向量表示维度，假设构建的卷积神经网络中生成器所有通道数目大小为L，全连接网络的输出包含两个部分，第一部为向量另一部分为向量其中K为步骤3中基的个数；而其总体包括两层大小均为128维的隐层，中间层使用Relu函数作为激活函数，输出层使用Tanh函数作为损失函数；

步骤3：构建适应性通道域EM注意力模块；对应混合高斯模型中的过程，设一张图片送入卷积神经网络中的生成器后，通过生成器中的卷积块输出得到的特征图为X，大小为C×H×W，其中C为通道数，H和W分别为特征图的高和宽；X是输入图片通过生成器中卷积块的激活函数后得到的；将X改变形状至C×N，其中N＝H×W；表示第i个通道的N维向量；给定以及通过正态分布随机采样，初始化一组由K个基向量组成的矩阵其中K＜N；则步骤3分为以下三个小步骤进行；第一步是估计隐藏变量第二步是利用第一步估计的结果来更新基向量矩阵M；第一步和第二步循环迭代直至μ和Z收敛；第三步是利用M和Z来重构X，并利用步骤2中得到的S来对M进行乘法运算；

步骤3.1：估计隐藏变量这一步是计算每一个基对每一个通道的负责程度，即每个通道属于每个基的可能性；z_ck表示的是μ中第k个基对第c个通道x_c的权值，其中1≤k≤K且1≤c≤C；构建条件于μ_k的x_c的后验概率分布如下：

其中表示的是广义核函数；则z_ck用如下公式进行计算：

核函数选择的形式，则对于第t次迭代，隐藏变量Z采用下面的公式进行计算：

Z^(t)＝softmax(X(M^(t-1))^T)

步骤3.2：对于第t次迭代，通过对X的加权求和，基向量的更新表示成：

步骤3.3：步骤3.1和步骤3.2交替执行T次之后，进行步骤3.3，用M和Z来重构X，并利用步骤2中得到的S来对μ进行乘法运算；对于步骤2中的得到的S，其长度为K，与基μ的个数相等；则最终利用如下公式来进行X的重构：

步骤4：总神经网络；

将步骤3中的适应性通道域EM注意力模块嵌入到步骤2中的生成器当中，总共在3个不同之处嵌入；第一处在第二层下采样卷积块后第一个残差网络块之前，第二处在第5个残差网络块的位置替换，第三处在最后一个残差网络块之后第一个上采样卷积块之前嵌入；全连接神经网络的输出中的特征图控制编码d乘入生成器中的所有卷积层的输出，而基控制编码S乘入步骤3中得到的适应性通道域EM注意力模块中的基M；生成器的输出作为判别器的输入，判别器的输出为总神经网络的输出；

步骤5：设计损失函数；

在步骤1中获取到的图片，记鞋子轮廓类别图片为I_A，真实鞋子图片为I_B；并对正态分布进行随机采样得到向量v，步骤2中的生成器以及全连接网络一起记为G，判别器记为D；G中的生成器输入为I_A，全连接网络的输入为v，两者共同作用并将输出记为G(I_A，v)；判别器的输入为I_B和G(I_A，v)，它们的输出分别记为D(I_B)和D(G(I_A，v))；则网络损失描述为：

为判别器的损失函数，为生成器的损失函数；分别表示对(I_A，v)和I_B求期望；

步骤6：训练总神经网络，利用步骤5构建的损失函数进行网络训练，在更新G时固定D的参数，而更新D是则固定G的参数，每次迭代交替更新一次；

步骤7：测试阶段，在步骤6中训练好模型，只取网络G部分；给定一张输入图片I_A，以及不同的正态分布样本v，得到多张不同风格的输出图片。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010431594.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种无液氦核磁共振仪
下一篇：图像分割方法、装置、电子设备及计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T3-00 在图像平面内的图形图像转换，例如，从位像到位像地建立一个不同图像
G06T3-20 .整个或部分图形的线性转换，如面位显示
G06T3-40 .整个或部分图形的定标
G06T3-60 .整个或部分图形的旋转

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于适应性注意力机制的多模态的图像风格迁移方法有效

专利文献下载