[发明专利]一种基于迭代注意力机制的视觉问答模型在审
| 申请号: | 201911099046.2 | 申请日: | 2019-11-12 |
| 公开(公告)号: | CN110889340A | 公开(公告)日: | 2020-03-17 |
| 发明(设计)人: | 颜丙旭;刘杰 | 申请(专利权)人: | 哈尔滨工程大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
| 代理公司: | 北京汇众通达知识产权代理事务所(普通合伙) 11622 | 代理人: | 李志男 |
| 地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 注意力 机制 视觉 问答 模型 | ||
1.一种基于迭代注意力机制的视觉问答模型,其特征在于:包括以下步骤:
步骤S1:构建双重注意力机制;
步骤S2:迭代模型内部结构,即每次图像和问题的融合方法;
步骤S3:答案预测。
2.根据权利要求1所述的一种基于迭代注意力机制的视觉问答模型,其特征在于:所述步骤S1包括:
首先,利用VggNet提取图像特征,考虑到后边用到迭代模型,令其为Ql,利用Bi-LSTM对问题编码令其为Vl,创建两个注意力图,Ql和Vl的计算公式如下:
以上AQl和BVl的每一行包含单个注意图;
将维特征向量和投影到多个低维空间;令低维空间数量为dh(≡d/h)为特征向量维度;用和表示线性投影;第i个空间的投影特征矩阵为:
用softmax函数通过按列和按行归一化,在每个矩阵创建注意力图,公式如下;
本发明使用乘法(或点积)注意力时,如下所述,多个特征的平均融合相当于求注意力图的平均值,公式如下:
本发明使用乘积注意力来获取问题和图像的特征表示和公式如下:
以上与Vl的大小相同即d×T,与Ql的大小相同即d×N。
3.根据权利要求1所述的一种基于迭代注意力机制的视觉问答模型,其特征在于:所述步骤S2包括:
在计算特征表示和之后,在矩阵的第n列存储与第n个问题单词相关的整个图像的表示,即第n个单词的注意力特征向量;接着,通过级联将第n列向量与第n个问题单词向量融合,形成二维向量
将连接后的向量通过单层网络投射会d维度空间,再通过ReLU激活函数和残差连接;公式如下:
其中和是学习权重和偏置项;当n(n=1,…,N)个单词都参与运算后得出
类似的,将第t个图像区域的表示vlt与以第t个图像区域相关的整个疑问词的表示串联起来,投影到d维空间,公式如下:
其中,和是学习权重和偏置项;当t(t=1,…,T)个区域都参与运算后得出
4.根据权利要求1所述的一种基于迭代注意力机制的视觉问答模型,其特征在于:所述步骤S3包括:
本发明用迭代模型的最后一次输出QL和VL来预测答案分布;由于它们包含了N个问题词和T个图像区域的表示,本发明首先对它们进行自注意力机制,以获得整个问题和图像的聚合表示;针对QL的操作如下:
计算“分数”,sqL1,…,sqLN分别是qL1,…,qLN的分数,通过在隐藏层中应用具有双层MLP来实现;
用softmax进行归一化,得出权重
使用公式计算聚合表示;
使用相同的方法得到VL的权重矩阵和聚合表示
用MLP计算预定义答案的分数,这是最近研究中广泛使用的方法,公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911099046.2/1.html,转载请声明来源钻瓜专利网。





