[发明专利]一种基于动态词嵌入的多模态Transformer的图像描述方法在审

专利信息
申请号: 202110537165.2 申请日: 2021-07-19
公开(公告)号: CN113344036A 公开(公告)日: 2021-09-03
发明(设计)人: 曾凯;杨文瑞;朱艳;沈韬;刘英莉 申请(专利权)人: 昆明理工大学
主分类号: G06K9/62 分类号: G06K9/62;G06T9/00;G06F40/30
代理公司: 昆明同聚专利代理有限公司 53214 代理人: 王远同
地址: 650000 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 动态 嵌入 多模态 transformer 图像 描述 方法
【权利要求书】:

1.一种基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于,包括以下步骤:

(1)使用图像特征提取器组件,选中图像的显著区域,对图像进行图像特征的提取:对图像中的目标进行特征提取,生成更有意义的图像特征矩阵;

(2)使用Transformer的图像特征编码器组件,对图像特征进行编码;

(3)使用文本特征编码器,对文本信息进行包含上下文信息的特征提取与动态编码:对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,再经过基于掩码的多头注意力组件进行文本特征向量的生成;

(4)使用Transformer解码器组件,使用多头注意力层进行图像信息与文本信息的相互学习,并生成对应的文本描述。

2.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(1)中所述图像的显著区域,对图像中的目标进行特征提取:对已经得到的图像目标区域,使用PCA提取出图像目标区域中的主要信息:

再将的得到的主要信息进行线性变化,使其变化到与输入至下一步骤相同的特征维度:

其中I为图像中的目标区域信息,为经过PCA分析后的主要信息,为经过PCA分析后的次要信息,X为最终的到的特征向量,WL为线性变化系数矩阵。

3.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(2)中所述使用多模态Transformer的编码器进行图像特征的编码,具体为:

Zf=TE(X) 3

公式中:X代表输入的图像数据,TE代表Transformer中的编码操作。

4.根据权利要求1所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:步骤(3)中所述对输入的文本进行处理,形成语句中包含上下文信息且语义更加丰富的词向量表示,具体为:首先将描述语句送入至ELMo词嵌入编码器中得到包含上下文信息且语义丰富的词嵌入编码,接着将描述语句输入至标准词嵌入编码器,最后对输入的语句进行特征表示进行注意力加权,生成包含上下文信息并且语义更加丰富的描述语句的词向量Y:

Yelmo=ELMo(C) 4

Ynorm=Wn·C 5

其中Yelmo代表生成的ELMo词嵌入矩阵,ELMo代表ELMo词嵌入编码操作,C代表描述语句生成的token矩阵,Wn代表线性变化的系数矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵。

5.根据权利要求4所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:所述对输入的语句进行特征表示的注意力加权,具体为:使用注意力机制,对标准词嵌入的词向量以及ELMo词嵌入的词向量进行自注意力加权生成最终的词向量,如下所示:首先通过自注意机制获得标准词嵌入与ELMo词嵌入的注意力得分矩阵a:

a=SA(Ynorm,αYelmo)) 6

Y=a×Yelmo 7

其中a为所得的注意力得分矩阵,Ynorm代表标准词嵌入编码器的得到的词嵌入矩阵;Yelmo代表生成的ELMo词嵌入矩阵,α为权重匹配系数。

6.根据权利要求5所述基于动态词嵌入的多模态Transformer的图像描述方法,其特征在于:所述权重匹配系数α,每经过10000次迭代减少十倍。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110537165.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top