[发明专利]一种基于密集协注意力模块的VQA方法在审
| 申请号: | 202010520943.2 | 申请日: | 2020-06-10 |
| 公开(公告)号: | CN111858849A | 公开(公告)日: | 2020-10-30 |
| 发明(设计)人: | 张佳宁;武兆昌;陈云芳 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210012 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 密集 注意力 模块 vqa 方法 | ||
1.一种基于密集协注意力模块的VQA方法,其特征在于,所述方法为从图像中提取出的特征V和问题中提取出的特征Q,送入多个密集协注意力机制模块中,第一个模块输出由问题引导提取出来的图像特征V1和由图像引导提取出来的问题特征Q1,之后按照同样的方式通过多个密集协注意力模块操作,由两种融合了对方特性的特征进行问题词的回答,具体包括以下步骤:
(1)向VQA系统中输入图像与问题文本;
(2)使用双向LSTM对问题和图像进行编码;
(3)利用四个卷积层提取图像区域的视觉特征,利用问题引导的注意力对这些层进行融合,获得四个d×T的矩阵;
(4)通过softmax函数归一化获得四个注意力权重α1,α2,α3,α4,加权计算四个矩阵,获得图像表示d×T矩阵V=[v1,…,vT],它将图像第t个区域的特征存储在大小为d的第t个列向量中;
(5)将问题表示V与图像表示Q作为输入送入密集注意力层,Ql与Vl表示(l+1)-st层的输入;
(6)给N个问题单词加上K个状态辅助信息以及T个图像区域信息,结合两个可学习的参数矩阵和在行方向上扩大矩阵Ql与Vl获得矩阵与
(7)线性投影d维特征与到多个低维空间,h为低维空间的数量,维度为dh(≡d/h),使用与来表示线性投影,从而获得第i个空间的投影特征的关联矩阵注意力图的线性映射由每一个亲和矩阵分别按列和行进行归一化获得和多个参与特征的平均融合相当于平均我们的注意力图,即做平均运算获得与
(8)将所得的附加特征与以及平行特征与相乘,得到融合了对方特征的与
(9)融合第n列的向量与第n个问题单词的表示通过连接形成2d向量将连接后的向量通过单层网络投影到d维空间中,然后进行ReLU激活和剩余连接获得q(l+1)n;
(10)同步骤(9),连接第t个图像区域的表示vlt和与该区域相关的整个问题单词表示将连接后的向量通过单层网络投影到d维空间中,然后进行ReLU激活和残差连接获得v(l+1)t;
(11)给定最后一层的输出QL与VL进行答案预测,通过在其隐藏层使用具有ReLU非线性的相同的两层MLP计算获得qL1,…,qLN的sqL1,…,sqLN;
(12)对sqL1,…,sqLN进行softmax从而获得注意力权重计算出聚合表示
(13)同步骤12,使用不同权重的MLP,我们可以获得注意力权重计算出
(14)按照步骤(2)的方法对答案进行编码,由M个单词组成的答案被转换为同样经过Bi-LSTM,产生隐藏状态与获得
(15)计算sA总和的内积和:
其中,σ为逻辑函数,W为需学习的权重矩阵。
2.根据权利要求1所述的一种基于密集协注意力模块的VQA方法,其特征在于,所述步骤(2)包括以下步骤:
(21)将由N个单词组成的问题文本转换成GloVe词向量序列
(22)将其输入到一个具有剩余连接的单层双向LSTM(Bi-LSTM)中,获得与
(23)创建一个矩阵Q=[q1,…,qN]∈Rd×N,其中同时获得用于后面获取图像的表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010520943.2/1.html,转载请声明来源钻瓜专利网。





