[发明专利]基于生成对抗网络的服饰搭配生成方法有效
| 申请号: | 201910842802.X | 申请日: | 2019-09-06 |
| 公开(公告)号: | CN110659958B | 公开(公告)日: | 2022-03-15 |
| 发明(设计)人: | 胡洋;俞聪 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06V10/774;G06K9/62;G06N3/04 |
| 代理公司: | 电子科技大学专利中心 51203 | 代理人: | 周刘英 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 生成 对抗 网络 服饰 搭配 方法 | ||
1.一种基于生成对抗网络的服饰搭配生成方法,其特征在于,该方法包括如下步骤:
S1)收集总共由797名在线用户精心制作的共208814套服饰物品图像搭配作为数据集,对于每个用户,分别选取221和41套服饰物品图像搭配用于训练和测试,其中每套服饰物品图像搭配由两件来自不同类别的服饰单品组成,即上衣和下衣,在797名在线用户中,训练集共包括102217件上衣、76245件下衣以及176137套服饰物品图像搭配;测试集共包括26899件上衣、23642件下衣以及32677套服饰物品图像搭配;
S2)采用步骤S1)收集的训练集训练生成对抗网络服饰搭配生成模型;
S3)采用步骤S1)收集的测试集对步骤S2)训练完成的生成对抗网络服饰搭配生成模型进行测试,以完成如下两个任务:一、给定一件上衣作为给定输入查询服饰物品图像,设计一件下衣作为目标服饰物品图像与之搭配;二、给定一件下衣作为给定输入查询服饰物品图像,设计一件上衣作为目标服饰物品图像与之搭配;
S4)对步骤S3)的测试效果进行验证;
其中,所述步骤S2)中生成对抗网络服饰搭配生成模型的结构包括:编码器—生成器架构、真/假判别器D、兼容性判别器,其中,编码器—生成器架构包括编码器F1和生成器G;
所述生成对抗网络服饰搭配生成模型首先使用编码器—生成器架构中编码器F1中的卷积神经网络提取给定输入查询服饰物品的图像特征,将提取的图像特征信息映射到特征隐空间,考虑到不同用户的风格偏好特征,将所述特征隐空间与用户风格偏好特征信息隐空间结合作为生成器G的输入;编码器—生成器架构中的生成器G由一个多层反卷积网络构成,该多层反卷积网络用于目标服饰物品图像的生成;真/假判别器D用于判别生成的目标服饰物品图像的质量,形成对抗训练,所述真/假判别器D作为传统生成对抗网络的判别部分,用于指导生成逼真的目标服饰物品图像;兼容性判别器用于学习给定输入查询服饰物品图像与目标服饰物品图像之间的配合度以及学习输入查询服饰物品图像与目标服饰物品图像的搭配与用户风格偏好之间的配合度,通过评分指导生成器G的学习;
所述编码器—生成器架构用于目标服饰物品图像的生成推荐过程,其具体包括:
所述编码器—生成器架构中的编码器F1对给定输入查询服饰物品图像进行下采样,并将下采样结果用隐向量zq表示,该隐向量zq包含了所述给定输入查询服饰物品图像的语义属性,并且将所述语义属性作为生成目标服饰物品图像的基本依据,并将从所述训练集中学习的用户向量θu用来表示任一用户u的风格偏好特征,将隐向量zq和用户向量θu按通道拼接起来,然后将其组合输入到生成器G中以生成目标服饰物品图像;
生成器G的结构包括依次连接的1层全连接层FC和7层反卷积层,全连接层的维度为8×8×256,并在全连接层后反卷积层之前依次连接1层批量归一化网络层BN和1层激活层,该激活层的激活函数采用LeakyReLU函数;采用DeConv m,m=1,2,…,7,表示第m层反卷积层,每一层反卷积层均包括3个参数,分别为反卷积层的卷积核大小,维度和卷积步长,所有反卷积层的卷积核大小均为5×5,第1-7层反卷积层的维度分别为256,256,256,256,128,64,3,第1-7层反卷积层的卷积步长分别为2,1,2,1,2,2,1,每一层反卷积层后下一层反卷积层之前均依次连接1层批量归一化网络层BN以及1层激活层,第1-6层反卷积层连接的激活层的激活函数均采用LeakyReLU函数,第7层反卷积层连接的激活层的激活函数采用Tanh函数;
所述真/假判别器D的结构由依次连接的4层卷积层和2层全连接层FC组成,每一层卷积层均包括3个参数,分别为卷积核的大小,维度,卷积步长,其中Conv n,n=1,2,3,4,表示第n层卷积层,所有卷积层的卷积核大小均为5×5,第1-4层卷积层的维度分别为64,128,256,512,第1-4层卷积层的卷积步长均为2,每一层卷积层后下一层卷积层之前依次连接1层批量归一化网络层BN和1层激活层,第1-4层卷积层连接的激活层所采用的激活函数均为LeakyReLU;第1-2层全连接层FC的维度分别为1024,1,并在第1层全连接层后下一层全连接层之前还连接1层激活层,该激活层所采用的激活函数为LeakyReLU,第2层全连接层无需激活层,只需要全连接层的维度;
所述兼容性判别器的结构由两部分组成:第一部分是孪生神经网络,其由依次连接的13层卷积层和3层全连接层FC组成,每一层卷积层均包括3个参数,分别为卷积核的大小,维度,卷积步长,其中Conv k,k=1,2,…,13,表示第k层卷积层,第7,10,13层卷积层的卷积核大小为1×1,其余10层卷积层的卷积核大小均为3×3,第1-2层卷积层的维度为64,第3-4层卷积层的维度为128,第5-7层卷积层的维度为256,剩余6层卷积层的维度为512,第1层卷积层的卷积步长为2,剩余12层卷积层的卷积步长为1,每一层卷积层后下一层卷积层之前依次连接1层批量归一化网络层BN和1层激活层,第1-13层卷积层连接的激活层所采用的激活函数均为ReLU,其中,第2、4、7、10、13层卷积层在激活层之后还连接有最大池化层maxpool;第1-3层全连接层的维度分别为1024,512,64,第1-2层全连接层后下一层全连接层之前依次连接1层批量归一化网络层BN和1层激活层,第1-2层全连接层连接的激活层所采用的激活函数均为ReLU,第1-2层全连接层的神经元随机失活概率dropo ut均为0.5,第3层全连接层无需批量归一化网络层和激活层以及神经元随机失活概率,只需要全连接层的维度;
将该孪生神经网络表示为编码器F2,首先,所述编码器F2将给定输入查询服饰物品图像xq和生成的目标服饰物品图像xc作为输入,所述给定输入查询服饰物品图像xq和生成的目标服饰物品图像xc都被转换为一个64维的隐向量表示:
zi=F(xi),i∈{q,c}.
所述编码器F2与所述编码器—生成器架构中的编码器F1共享参数;
所述兼容性判别器的第二部分是一个度量网络,用于衡量服饰物品图像之间的兼容性以及用户对不同服饰物品图像搭配的风格偏好程度,并将其表示为M;在度量网络中,需要将隐向量zq和zc联系起来,得到一个能够反映给定输入查询服饰物品图像和生成的目标服饰物品图像之间兼容性的分数,采用zq和zc的逐元素乘积来得到一套服饰物品图像搭配的隐空间表示:
zo=zq⊙zc.
其中,zq和zc是两个同阶矩阵,⊙表示哈达玛积;
考虑到个性化问题,对任一用户u都使用一个与之对应的可学习矢量θu来描述他/她的风格偏好,该矢量θu也是所述编码器F2结构参数的一部分,θu在生成对抗网络服饰搭配生成模型训练期间,逐渐完成对用户风格偏好的建模;
同样,θu也通过逐元素乘积与zo结合,其结果被输入到度量网络M中,以获得最终的兼容性分数,即,
su,o=M(θu⊙zo),
其中,M由1层全连接层构成,用于将64维的隐空间映射到一个数值标量,θu和zo是两个同阶矩阵,⊙表示哈达玛积;
所述步骤S2)中训练生成对抗网络服饰搭配生成模型时,所述真/假判别器D用于生成器G的训练时,所述训练集中真实的目标服饰物品图像比生成的目标服饰物品图像具有更高的概率估计,因此,所述真/假判别器D的最小二乘损失函数为:
其中,xr表示所述训练集中与给定输入查询服饰物品图像对应的真实目标服饰物品图像,xf表示生成的目标服饰物品图像,P和Q分别表示真实目标服饰物品图像数据分布和生成的目标服饰物品图像数据分布,E表示数学期望,xr~P表示xr服从P分布,D表示服饰物品图像输入到所述真/假判别器D得到的概率估计,所述真/假判别器D通过在xr和xf之间保持边界间隙来区分真实目标服饰物品图像数据和生成的目标服饰物品图像数据,这通过最小化以下损失函数来训练生成器G以消除该边界间隙,
训练所述兼容性判别器时,将所述训练集分为正训练集O+和负训练集O-:
其中o+表示当前用户u在线分享的一套服饰的搭配,代表当前用户u风格偏好的服饰搭配,并将其标注为正样本,o-代表所述训练集中的负样本,由给定输入查询服饰物品和来自目标类别的随机服饰物品组成,或者是由除当前用户u以外的其他用户创建的一套服饰物品搭配负样本反映了给定输入查询服饰物品图像和随机服饰物品图像之间的不相容性,而对于负样本就服饰物品间的搭配关系而言,和符合兼容性要求,但这种搭配风格并不被当前用户u所偏好,它描述了当前用户u与套装之间的不兼容性,设计此负样本的目的是学习不同用户之间风格偏好的差异;
生成的目标服饰物品图像还可以与给定输入查询服饰物品图像组成新的生成训练集O*:
其中o*表示使用生成对抗网络服饰搭配生成模型为当前用户u设计的一套服饰搭配,即生成样本,其由给定输入查询服饰物品图像和生成对抗网络服饰搭配生成模型生成的目标服饰物品图像组成,所述兼容性判别器应当能够正确区分正样本和负样本,将更高的兼容性分数分配给正样本,即期望对正样本的兼容性评分高于对负样本的兼容性评分:
考虑到不同用户的风格偏好差异,所述编码器F2和所述度量网络M应当减小以下损失函数:
其中σ(·)是sigmoid函数,θFM包括所述编码器F2和所述度量网络M中的参数,是正则化系数,E表示数学期望,o+,-~O+,-表示o+,-的取值范围为正训练集O+和负训练集O-,为了确保生成的目标服饰物品图像与给定输入查询服饰物品图像具有良好的搭配关系,并且它们的组合结果满足当前用户u的风格偏好,让当前用户u的生成样本o*获得与正样本o+相似的兼容性分数,即
这通过优化所述生成器G的参数来实现,应当减小以下损失函数
在所述生成对抗网络服饰搭配生成模型的训练中,其总体目标是最小化以下损失函数:
其中损失函数LFM与所述编码器F2、所述度量网络M和用户偏好向量θu有关,损失函数仅与所述真/假判别器D相关,损失函数和都与所述生成器G相关,所有这些损失函数彼此互补;
依次输入所述训练集中所有的训练样本,对于每一组训练样本,首先通过减少损失函数LFM的损失来训练所述兼容性判别器;然后训练所述真/假判别器D以减少损失函数的损失;之后,保持两种判别器的参数固定,并通过减少损失函数和损失函数中的损失来优化所述生成器G的参数,从而完成所述生成对抗网络服饰搭配生成模型的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910842802.X/1.html,转载请声明来源钻瓜专利网。





