[发明专利]一种基于动态词嵌入的多模态Transformer的图像描述方法在审
申请号: | 202110537165.2 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113344036A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 曾凯;杨文瑞;朱艳;沈韬;刘英莉 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06T9/00;G06F40/30 |
代理公司: | 昆明同聚专利代理有限公司 53214 | 代理人: | 王远同 |
地址: | 650000 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 嵌入 多模态 transformer 图像 描述 方法 | ||
1.一种基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于,包括以下步骤:
(1)使用图像特征提取器组件,选中图像的显著区域,对图像进行图像特征的提取:对图像中的目标进行特征提取,生成更有意义的图像特征矩阵;
(2)使用Transformer的图像特征编码器组件,对图像特征进行编码;
(3)使用文本特征编码器,对文本信息进行包含上下文信息的特征提取与动态编码:对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,再经过基于掩码的多头注意力组件进行文本特征向量的生成;
(4)使用Transformer解码器组件,使用多头注意力层进行图像信息与文本信息的相互学习,并生成对应的文本描述。
2.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(1)中所述图像的显著区域,对图像中的目标进行特征提取:对已经得到的图像目标区域,使用PCA提取出图像目标区域中的主要信息:
再将的得到的主要信息进行线性变化,使其变化到与输入至下一步骤相同的特征维度:
其中I为图像中的目标区域信息,为经过PCA分析后的主要信息,为经过PCA分析后的次要信息,X为最终的到的特征向量,WL为线性变化系数矩阵。
3.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(2)中所述使用多模态Transformer的编码器进行图像特征的编码,具体为:
Zf=TE(X) 3
公式中:X代表输入的图像数据,TE代表Transformer中的编码操作。
4.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(3)中所述对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,具体为:首先将描述语句送入至ELMo词嵌入编码器中得到包含上下文信息且语义丰富的词嵌入编码,接着将描述语句输入至标准词嵌入编码器,最后对输入的语句进行特征表示进行注意力加权,生成包含上下文信息并且语义更加丰富的描述语句的词向量Y:
Yelmo=ELMo(C) 4
Ynorm=Wn·C 5
其中Yelmo代表生成的ELMo词嵌入矩阵,ELMo代表ELMo词嵌入编码操作,C代表描述语句生成的token矩阵,Wn代表线性变化的系数矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵。
5.根据权利要求4所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:所述对输入的语句进行特征表示的注意力加权,具体为:使用注意力机制,对标准词嵌入的词向量以及ELMo词嵌入的词向量进行自注意力加权生成最终的词向量,如下所示:首先通过自注意机制获得标准词嵌入与ELMo词嵌入的注意力得分矩阵a:
a=SA(Ynorm,αYelmo)) 6
Y=a×Yelmo 7
其中a为所得的注意力得分矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵;Yelmo代表生成的ELMo词嵌入矩阵,α为权重匹配系数。
6.根据权利要求5所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:所述权重匹配系数α,每经过10000次迭代减少十倍。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110537165.2/1.html,转载请声明来源钻瓜专利网。