[发明专利]基于GAT关系推理的视觉问答方法在审
申请号: | 202111359601.8 | 申请日: | 2021-11-16 |
公开(公告)号: | CN114168769A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 缪亚林;李臻;童萌;白宛婷;李国栋 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F16/583;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 刘娜 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gat 关系 推理 视觉 问答 方法 | ||
1.基于GAT关系推理的视觉问答方法,其特征在于,具体按照以下步骤实施:
步骤1,问题嵌入:将问题划分为独立单词,利用Glove词向量模型对单词进行向量化表示,使用双向GRU网络进行句子特征提取,得到问题特征向量Q;
步骤2:场景图生成:使用Faster R-CNN结合ResNet-101网络模型提取图像的区域特征和空间特征,增加属性检测器,获得物体的属性特征,GAT2R模型对图片内对象进行结构化建模,生成全连接场景图,图节点表示图像中的物体,图的边为节点对之间的关系,通过关系解码器获得场景内节点对之间的交互关系;
步骤3:场景图更新:通过图注意力网络学习以问题引导的动态场景图,通过执行注意力操作来突出步骤1产生的词向量和步骤2产生的节点和边的相关性,然后通过图注意力卷积网络更新节点;
步骤4:多模态融合和答案预测:通过求和步骤3产生的场景图信息,并通过最大池化来计算图的全局向量表示,通过一个简单的元素乘积融合问题和图的全局向量表示,并将其输入到全连接层以预测答案。
2.根据权利要求1所述的基于GAT关系推理的视觉问答方法,其特征在于,所述步骤1中,具体为:
步骤1.1:将输入问题根据标点符号和空格,划分为单独的单词;输入的问题转化为单词数组,表示为如下公式:
q=[q1,q2,...,qN]
其中,N为句子中包含的单词数,q1,q2,...,qN为N个单独的单词,q为单词集合;
步骤1.2:使用Glove词向量模型获得单词向量h,表示为:
h=[h1,h2,...,hN]
其中,hN为单词qN的词向量,h为经过Glove词向量模型训练之后的单词向量集合;
步骤1.3:使用双向GRU网络进行句子特征提取,并在双向GRU的最终输出向量上使用自注意力机制,得到问题特征向量Q。
3.根据权利要求1所述的基于GAT关系推理的视觉问答方法,其特征在于,所述步骤2中,具体为:
步骤2.1:场景图节点构造;Faster R-CNN结合ResNet-101网络模型是将Faster R-CNN目标检测算法中的骨干网络替换为ResNet-101网络,还增加了一个额外的输出层用来判断对象属性,BUTD模型将对象所在区域平均池化卷积特征与对象类向量连接起来,输入到一个额外的输出层,对于图像内每一个对象边界框都得到<属性类,对象类这样的二元组,将Faster R-CNN结合ResNet-101网络模型产生的定位信息和BUTD模型产生的二元组拼接在一起就构成了场景图节点;选取置信度最大的前K个物体候选框作为场景图的候选节点;
步骤2.2:场景图边构建,生成场景图G={V,E};
其中,V表示节点集合,即步骤2.1生成的场景图节点集合;E表示这些节点之间的关系集合,考虑了所有边的可能性,边代表了节点之间的各种可能关系,通过一层前馈网络和归一化层将图像中所有对象向量对转换为边向量ei,j,如下公式所示,所有边向量的集合为E;
ei,j=LayerNorm(FeedForward([vi,vj]))i,j=1…K
其中,ei,j代表节点i和节点j之间的场景图边;vi,vj为第i,j的节点,K为节点个数;
步骤2.3:关系解码器;GAT2R通过一个在Visual Genome数据集上预训练的分类网络来学习场景图节点之间的关系;将关系定义为subject-predicate-object这样的三元组,每个边向量输入关系解码器,以对其关系标签进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111359601.8/1.html,转载请声明来源钻瓜专利网。