[发明专利]基于多头注意力机制的高分辨率的图片的生成方法有效

申请号：	201811491456.7	申请日：	2018-12-07
公开（公告）号：	CN109697694B	公开（公告）日：	2023-04-07
发明（设计）人：	闫然;许少华	申请（专利权）人：	山东科技大学
主分类号：	G06T3/40	分类号：	G06T3/40;G06N3/0464;G06N3/08
代理公司：	青岛智地领创专利代理有限公司 37252	代理人：	陈海滨
地址：	266590 山东省青岛***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多头注意力机制高分辨率图片生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多头注意力机制的高分辨率的图片的生成方法，其特征在于，利用多头注意力机制将图片在不同阶段生成不同的图片文本描述向量，利用one-hot生成图片的类别向量，包括如下步骤：

(1)数据预处理：将多个类别的高分辨率的图片进行下采样，分别得到多个类别的低分辨率的图片，将图片、该图片的文件描述以及图片的类别组成三种分辨率的“图片-文本-类别”对的形式；

(2)构建网络结构：利用卷积神经网络构建三个生成器和三个判别器，其中，第一个生成器的输入是噪声、类别向量和文本向量1，输出假图片1，第二个生成器的输入是第一个生成器生成的假图片1、类别向量和文本向量2，输出假图片2，第三个生成器的输入是假图片2、类别向量和文本向量3，输出假图片3；输出端输出生成器生成的64*64、128*128和256*256的图片；判别器用于对生成的图片真实性和类别进行判断，三个判别器的输入端分别输入三种分辨率的“图片-文本-类别”对以及三个生成器生成的图片和类别向量；

(3)对于判别器进行两个判别，第一判别为对生成的图片的真假进行判别，第二判别为对生成的图片的类别进行判断；

(4)由于判别器的判别能力高于生成器的生成能力，采取每个判别器迭代一次，三个生成器分别迭代n次，2n次，3n次，其中n为正整数；

(5)判别器和生成器不断博弈，直至判别器无法分辨生成器生成的图片是真实的还是假的为止，损失函数如式(1)所述：

其中，x为输入参数代表一张图片，D(x)为输出代表x为真实图片的概率，D(x)为1，就代表100％是真实的图片，D(x)输出为0，就代表不是真实的图片；

对于图片文本描述向量的生成，利用multi-head attention将图片的文本描述转换为图片文本描述向量的，利用multi-head attention机制使文本进行编码的过程中，对于不同的文本的关注度不同，对于重要的词赋予更高的关注度；

具体的计算过程如是式(2)、(3)：

Multi-head (Q,K,V) ＝ concat(head₁,head₂,...head_n)w^o (2)

Head_i ＝ attention(QW_i^Q,KW_i^K,VW_i^V) (3)

其中，w都是需要学习的参数，Q、K、V都是word embedding；

对于不同的生成器的multi-head attention中的头的个数是不一致的，令第一个生成器的头个数为1或n，第二个生成器的头个数为2或2n，第三个头结点的个数为3或2n，n为正整数；

图片的种类包含多种类别，不同类别的图片用不同的类别向量描述，对于类别向量的生成，是将每个类别使用one-hot进行编码，生成类别向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。