[发明专利]语义级图片解耦及生成优化方法在审
申请号: | 202210063990.8 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114419396A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 成科扬;孟春运;司宇 | 申请(专利权)人: | 江苏大学;镇江昭远智能科技有限公司;南京昭视智能科技有限公司 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 212013 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 图片 生成 优化 方法 | ||
1.一种语义级图片解耦及生成优化方法,其特征在于,包括以下步骤:
步骤(1):将像素尺寸为64×64的原始图片输入编码器,输入图片先经过四层下采样的卷积层,每个卷积层都是32个通道,这里使用4×4的卷积核,步幅为2,每层特征图的尺寸分别为32×32、16×16、8×8、4×4,然后将第四层卷积层的特征图平铺开来,与两层全连接层连接,每层有256个单元,接着是由20个单元组成的全连接层,分别用于参数化10个高斯随机变量的平均值和对数标准差,这里利用重参数化技巧,最后获得十维的解耦表征;
步骤(2):在解码器中,由20个单元组成的全连接层先与两层全连接层连接,每层有256个单元,然后是四层上采样的卷积层,每个卷积层都是32个通道,这里使用4×4的卷积核,步幅为2,每层特征图的尺寸分别为4×4、8×8、16×16、32×32,最后生成像素尺寸为64×64的重建图片;
步骤(3):将原始图片、重建图片以及随机抽取其他批次中图片分别作为锚定样本、正例样本和负例样本,其中每一批次中的锚定样本、正例样本和负例样本的数量分别为1张、1张和127张。把这三类样本输入对比学习模块中,同时利用该模块中的对比损失函数来不断地更新编码器和解码器中的系数权重;
步骤(4):将原始图片、重建图片输入基于像素级格拉姆矩阵的图片生成优化模块中,得到这两张三维图片的像素级格拉姆矩阵,将两者像素级格拉姆矩阵的F-范数作为损失函数来不断地更新编码器和解码器中的系数权重。
2.根据权利要求1所述的一种语义级图片解耦及生成优化方法,其特征在于,所述步骤(3)中的对比学习模块的具体实现方法分两个阶段:一是原始图片预处理获得语义关联编码阶段,二是对比学习损失函数更新编码器、解码器权重阶段。原始图片预处理阶段,首先是对原始图片采用数据增广技术,获得一系列通过放大、旋转、裁剪等操作后图片集,每一批次的图片集数量为32张,将这些图片集利用循环神经网络进行预处理,这里使用的循环神经网络是GRU模型,最后获得这32张图片序列之间的语义关联编码。对比学习损失函数更新编码器、解码器权重阶段,将原始图片经过预处理后的语义关联编码、重建图片以及随机抽取其他批次中图片分别作为锚定样本、正例样本和负例样本输入对比损失函数中。在编码器、解码器和对比损失函数的共同作用下,该基于对比学习的β变分自编码器的损失函数为:
其中,x+和x-分别表示原始图片经过预处理后的语义关联编码、重建图片和随机抽取其他批次中图片,即锚定样本、正例样本和负例样本,N-1中N表示其它批次中的图片数,这里为128张。
3.根据权利要求1所述的一种语义级图片解耦及生成优化方法,其特征在于,所述步骤(4)中的基于像素级格拉姆矩阵的图片生成优化模块的具体实现方法如下:基于像素级格拉姆矩阵的图片生成优化模块是将输入图片和重建图片的像素级格拉姆矩阵的F-范数作为损失函数来不断地更新编码器和解码器的系数权重。在编码器、解码器和像素级格拉姆矩阵的共同作用下,该基于像素级格拉姆矩阵的图片生成优化模块的损失函数如下:
其中,x表示输入图片,(i,j,k)表示该图片的长宽和通道数,Gx表示原始图片或者重建图片的像素级格拉姆矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学;镇江昭远智能科技有限公司;南京昭视智能科技有限公司,未经江苏大学;镇江昭远智能科技有限公司;南京昭视智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210063990.8/1.html,转载请声明来源钻瓜专利网。