[发明专利]一种基于注意力决策的图像视觉问答模型、方法和系统有效

申请号：	201910355026.0	申请日：	2019-04-29
公开（公告）号：	CN110134774B	公开（公告）日：	2021-02-09
发明（设计）人：	陈进才;张胜;卢萍;赵伟;马亚雄;王少兵;黄佳宝	申请（专利权）人：	华中科技大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F16/583;G06N5/04;G06K9/62
代理公司：	华中科技大学专利中心 42201	代理人：	李智;曹葆青
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力决策图像视觉问答模型方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力决策的图像视觉问答模型，其特征在于，所述模型包括：

视觉信息提取模块，用于提取图像I的全局图像特征g和空间图像特征v，将全局图像特征g发送给信息融合模块，将空间图像特征v发送给特征抽取池化模块；

问题分析模块，用于提取问题Q的问题特征向量q，并发送给信息融合模块；

信息融合模块，用于在k＝1时，接收并融合来自视觉信息提取模块的全局图像特征g和来自问题分析模块的问题特征向量q，得到融合特征向量u₁；或者，在k＝2，…，K时，接收并融合特征向量u_k-1和来自特征抽取池化模块的图像特征向量得到融合特征向量u_k；在k＝1…，K-1时，融合特征向量u_k发送给注意力决策模块，在k＝K时，融合特征向量u_k发送给答案推理模块；

注意力决策模块，用于接收来自信息融合模块的融合特征向量u_k，决策出注意力框L_k，并发送给特征抽取池化模块；

特征抽取池化模块，用于接收来自视觉信息提取模块的空间图像特征v和来自注意力决策模块的注意力框L_k，从空间图像特征v中选择注意力框L_k区域的特征再进行均值池化操作，得到图像特征向量作为第k+1次迭代信息融合模块的输入；

答案推理模块，用于接收来自信息融合模块的融合特征向量u_K，推理出问题Q的答案；

其中，k表示迭代次数，初值为1，K表示迭代总次数。

2.如权利要求1所述的模型，其特征在于，所述融合特征向量u_k通过以下方式获得：

其中，FC₁、FC₂和FC₃为全连接神经网络，运算符[，]表示连接两个向量。

3.如权利要求1所述的模型，其特征在于，所述决策出注意力框L_k，具体如下：

h_agent，k+1＝RNN(h_agent，k，u_k)

x′＝FC₄(h_agent，k+1)

y′＝FC₅(h_agent，k+1)

a′＝FC₆(h_agent，k+1)

b′＝FC₇(h_agent，k+1)

其中，h_agent，k为第k次迭代时内部历史状态，h_agent，0为零向量，RNN为循环神经网络，FC₄、FC₅、FC₆和FC₇为全连接神经网络，和为均满足均值为0、方差为1正态分布的随机数，(x′，y′)为加噪前决策出注意力框位置，(a′，b′)为加噪前决策出注意力框长宽，(x，y)为加噪后决策出注意力框位置，(a，b)为加噪后决策出注意力框长宽。

4.如权利要求3所述的模型，其特征在于，在空间图像特征v中，以(x，y)为中心，选择长为a宽为b的矩形区域的特征，再对其进行池化操作，得到一维图像特征向量

5.如权利要求1至4任一项所述的模型，其特征在于，利用强化学习的方法学习自适应的注意力决策过程。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910355026.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于注意力决策的图像视觉问答模型、方法和系统有效

专利文献下载