[发明专利]一种基于类别信息对齐的图像文本跨模态检索方法有效

申请号：	202110223858.4	申请日：	2021-03-01
公开（公告）号：	CN113010700B	公开（公告）日：	2022-03-25
发明（设计）人：	杨阳;王威扬;何仕远	申请（专利权）人：	电子科技大学
主分类号：	G06F16/432	分类号：	G06F16/432;G06F16/48;G06N3/04;G06N3/08;G06T9/00
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于类别信息对齐图像文本跨模态检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于类别信息对齐的图像文本跨模态检索方法，其特征在于，包括以下步骤：

(1)、构建训练数据集

将一张图像I以及对应文本T、类别信息C作为一个图像文本对实例存入训练数据集中，这样，N个图像文本对实例构成训练数据集；

(2)、构建基于类别区分的图像文本公共空间并计算损失函数

2.1)、构建真图像空间

对于图像I，提取其图像特征向量作为真图像特征然后用真图像编码器对真图像特征进行编码，得到真图像嵌入

2.2)、构建真文本空间

对于图像I对应的文本T，将其转换为文本特征向量，并作为真文本特征然后用真文本编码器对真文本特征进行编码，得到真文本嵌入

2.3)、构建真图像类别判别器真文本类别判别器模态间判别器D_imd

真图像类别判别器对真图像嵌入进行判别，得到图像概率类别信息嵌入Z^C进行类别判别，得到类别概率

真文本类别判别器分别对真文本嵌入进行判别，得到文本概率类别信息嵌入Z^C进行类别判别，得到类别概率

模态间判别器D_imd对真图像嵌入进行判别，得到图像概率对真文本嵌入进行判别，得到文本概率

真图像空间、真文本空间以及图像类别判别器文本类别判别器模态间判别器D_imd构成基于类别区分的图像文本公共空间；

2.4)、计算真图像空间的损失函数

将真图像编码器真文本编码器视为生成器，与图像类别判别器文本类别判别器模态间判别器D_imd构成完整的图像文本对抗网络，即类别区分的生成对抗网络；

定义编码器的生成损失函数

其中，M_k为最大平均差异函数；

定义循环一致性损失函数为

其中，为求两个向量的二范数；

定义图像与文本之间的模态不变性损失函数

其中，α为系数，为与图像I同一类别图像I⁺的真图像嵌入，为与图像I不同类别图像I^-的真图像嵌入，为与文本T同一类别文本T⁺的真文本嵌入，为与文本T不同类别文本T^-的真文本嵌入；

定义判别器对抗损失函数

这样，得到图像文本公共空间的损失函数L_CD：

(3)、构建类别公共空间并计算损失函数

对于图像I对应的类别信息C，将其转换为类别特征向量，并作为类别信息嵌入Z^C；

将真图像嵌入连接为并作为生成器的输入，生成伪图像特征然后再经过伪图像编码器编码，得到伪图像嵌入伪图像嵌入一方面送入到伪图像类别判别器得到图像概率另一方面与伪图像特征连接为并作为图像真伪判别器的输入，得到伪图像概率与此同时，类别信息嵌入Z^C送入到伪图像类别判别器得到类别概率真图像嵌入与真图像特征连接为并作为图像真伪判别器的输入，得到真图像概率

将类别信息嵌入Z^C与文本图像嵌入连接为并作为生成器的输入，生成伪文本特征然后再经过伪文本编码器编码，得到伪文本嵌入伪文本嵌入一方面送入到伪文本类别判别器得到图像概率另一方面与伪图像特征连接为并作为文本真伪判别器的输入，得到伪文本概率与此同时，类别信息嵌入Z^C送入到伪文本类别判别器得到类别概率真文本嵌入与真文本特征连接为并作为图像真伪判别器的输入，得到真文本概率

定义生成损失函数

定义循环一致性损失

定义判别器损失函数

计算类别公共空间的损失函数L_CG：

(4)、构建双向训练模型并计算损失函数

将伪图像特征与类别信息嵌入Z^C连接为并作为联合判别器的输入，得到解码过程概率与此同时，将送入联合判别器得到编码过程概率

将伪文本特征与类别信息嵌入Z^C连接为并作为联合判别器的输入，得到解码过程概率与此同时，将送入联合判别器得到编码过程概率

计算双向训练模型的判别器损失函数

(5)、训练

计算总的损失函数L_total：

将训练数据集的N个图像文本对实例，每个图像文本对实例送入图像文本公共空间、类别公共空间以及双向训练模型，依据总的损失函数L_total对图像文本公共空间、类别公共空间以及双向训练模型进行训练；

(6)、图像文本跨模态检索