[发明专利]基于多头注意力机制的高分辨率的图片的生成方法有效
申请号: | 201811491456.7 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109697694B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 闫然;许少华 | 申请(专利权)人: | 山东科技大学 |
主分类号: | G06T3/40 | 分类号: | G06T3/40;G06N3/0464;G06N3/08 |
代理公司: | 青岛智地领创专利代理有限公司 37252 | 代理人: | 陈海滨 |
地址: | 266590 山东省青岛*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多头 注意力 机制 高分辨率 图片 生成 方法 | ||
1.基于多头注意力机制的高分辨率的图片的生成方法,其特征在于,利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量,利用one-hot生成图片的类别向量,包括如下步骤:
(1)数据预处理:将多个类别的高分辨率的图片进行下采样,分别得到多个类别的低分辨率的图片,将图片、该图片的文件描述以及图片的类别组成三种分辨率的“图片-文本-类别”对的形式;
(2)构建网络结构:利用卷积神经网络构建三个生成器和三个判别器,其中,第一个生成器的输入是噪声、类别向量和文本向量1,输出假图片1,第二个生成器的输入是第一个生成器生成的假图片1、类别向量和文本向量2,输出假图片2,第三个生成器的输入是假图片2、类别向量和文本向量3,输出假图片3;输出端输出生成器生成的64*64、128*128和256*256的图片;判别器用于对生成的图片真实性和类别进行判断,三个判别器的输入端分别输入三种分辨率的“图片-文本-类别”对以及三个生成器生成的图片和类别向量;
(3)对于判别器进行两个判别,第一判别为对生成的图片的真假进行判别,第二判别为对生成的图片的类别进行判断;
(4)由于判别器的判别能力高于生成器的生成能力,采取每个判别器迭代一次,三个生成器分别迭代n次,2n次,3n次,其中n为正整数;
(5)判别器和生成器不断博弈,直至判别器无法分辨生成器生成的图片是真实的还是假的为止,损失函数如式(1)所述:
其中,x为输入参数代表一张图片,D(x)为输出代表x为真实图片的概率,D(x)为1,就代表100%是真实的图片,D(x)输出为0,就代表不是真实的图片;
对于图片文本描述向量的生成,利用multi-head attention将图片的文本描述转换为图片文本描述向量的,利用multi-head attention机制使文本进行编码的过程中,对于不同的文本的关注度不同,对于重要的词赋予更高的关注度;
具体的计算过程如是式(2)、(3):
Multi-head (Q,K,V) = concat(head1,head2,...headn)wo (2)
Headi = attention(QWiQ,KWiK,VWiV) (3)
其中,w都是需要学习的参数,Q、K、V都是word embedding;
对于不同的生成器的multi-head attention中的头的个数是不一致的,令第一个生成器的头个数为1或n,第二个生成器的头个数为2或2n,第三个头结点的个数为3或2n,n为正整数;
图片的种类包含多种类别,不同类别的图片用不同的类别向量描述,对于类别向量的生成,是将每个类别使用one-hot进行编码,生成类别向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东科技大学,未经山东科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811491456.7/1.html,转载请声明来源钻瓜专利网。