[发明专利]一种基于注意力决策的图像视觉问答模型、方法和系统有效
申请号: | 201910355026.0 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110134774B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 陈进才;张胜;卢萍;赵伟;马亚雄;王少兵;黄佳宝 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/583;G06N5/04;G06K9/62 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 决策 图像 视觉 问答 模型 方法 系统 | ||
1.一种基于注意力决策的图像视觉问答模型,其特征在于,所述模型包括:
视觉信息提取模块,用于提取图像I的全局图像特征g和空间图像特征v,将全局图像特征g发送给信息融合模块,将空间图像特征v发送给特征抽取池化模块;
问题分析模块,用于提取问题Q的问题特征向量q,并发送给信息融合模块;
信息融合模块,用于在k=1时,接收并融合来自视觉信息提取模块的全局图像特征g和来自问题分析模块的问题特征向量q,得到融合特征向量u1;或者,在k=2,…,K时,接收并融合特征向量uk-1和来自特征抽取池化模块的图像特征向量得到融合特征向量uk;在k=1…,K-1时,融合特征向量uk发送给注意力决策模块,在k=K时,融合特征向量uk发送给答案推理模块;
注意力决策模块,用于接收来自信息融合模块的融合特征向量uk,决策出注意力框Lk,并发送给特征抽取池化模块;
特征抽取池化模块,用于接收来自视觉信息提取模块的空间图像特征v和来自注意力决策模块的注意力框Lk,从空间图像特征v中选择注意力框Lk区域的特征再进行均值池化操作,得到图像特征向量作为第k+1次迭代信息融合模块的输入;
答案推理模块,用于接收来自信息融合模块的融合特征向量uK,推理出问题Q的答案;
其中,k表示迭代次数,初值为1,K表示迭代总次数。
2.如权利要求1所述的模型,其特征在于,所述融合特征向量uk通过以下方式获得:
其中,FC1、FC2和FC3为全连接神经网络,运算符[,]表示连接两个向量。
3.如权利要求1所述的模型,其特征在于,所述决策出注意力框Lk,具体如下:
hagent,k+1=RNN(hagent,k,uk)
x′=FC4(hagent,k+1)
y′=FC5(hagent,k+1)
a′=FC6(hagent,k+1)
b′=FC7(hagent,k+1)
其中,hagent,k为第k次迭代时内部历史状态,hagent,0为零向量,RNN为循环神经网络,FC4、FC5、FC6和FC7为全连接神经网络,和为均满足均值为0、方差为1正态分布的随机数,(x′,y′)为加噪前决策出注意力框位置,(a′,b′)为加噪前决策出注意力框长宽,(x,y)为加噪后决策出注意力框位置,(a,b)为加噪后决策出注意力框长宽。
4.如权利要求3所述的模型,其特征在于,在空间图像特征v中,以(x,y)为中心,选择长为a宽为b的矩形区域的特征,再对其进行池化操作,得到一维图像特征向量
5.如权利要求1至4任一项所述的模型,其特征在于,利用强化学习的方法学习自适应的注意力决策过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910355026.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种搜索推荐方法及系统
- 下一篇:问答数据生成方法及装置、存储介质
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序