[发明专利]视觉问答模型、电子设备及存储介质在审

申请号：	201910185125.9	申请日：	2019-03-12
公开（公告）号：	CN109902166A	公开（公告）日：	2019-06-18
发明（设计）人：	黄剑辉;乔敏;黄苹苹;朱勇;吕雅娟;李盈	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F16/583;G06F16/53
代理公司：	北京品源专利代理有限公司 11332	代理人：	孟金喆
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视觉图像编码器文本编码器语义存储介质电子设备问题文本池化方式处理模型训练模型预测图像特征文本向量向量提取词向量准确率向量图像
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种视觉问答模型、电子设备及存储介质，其中，所述视觉问答模型包括图像编码器和文本编码器；其中，所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理，以提取所述问题文本的语义表征向量；所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。本发明实施例通过使用池化方式处理文本向量，确保在视觉问答模型预测准确率损失不大的前提下，有效的提升了模型训练效率，更有益于工程上的使用。

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种视觉问答模型、电子设备及存储介质。

背景技术

视觉问答系统(Visual Question Answering以下简称VQA)是多模态融合的一种典型应用，例如，对于给定一张图，图中有一个穿红色衣服的击球手，如果提出相关的问题“what color shirt is the batter wearing？”，VQA模型需要结合图像信息和文本问题信息预测答案为“red”。这一过程主要涉及对图像和文本进行语义特征抽取，以及对抽取到的图像和文本两个模态的特征进行融合，因此VQA相关的模型的编码部分主要由文本编码器和图像编码器组成。

然而，由于需要同时涉及图像和文本编码器，VQA模型往往含有大量的需要训练的参数，这使得模型训练时间相当长。所以，如何在模型准确率损失不大的前提上，从工程上来精简模型，提高模型的训练效率成为目前亟需解决的技术问题。

发明内容

本发明实施例提供了一种视觉问答模型、电子设备及存储介质，以达到在视觉问答模型准确率损失不大的前提下，从工程上来精简模型，提高视觉问答模型的训练效率的目的。

第一方面，本发明实施例提供了一种视觉问答模型，包括图像编码器和文本编码器；

其中，所述文本编码器用于通过对输入的问题文本的词向量序列做池化处理，以提取所述问题文本的语义表征向量；

所述图像编码器用于结合所述语义表征向量提取给定图像的图像特征。包括：

第二方面，本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器运行如本发明任一实施例所述的视觉问答模型。

第三方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时运行如本发明任一实施例所述的视觉问答模型。

本发明实施例提供的一种视觉问答模型、电子设备及存储介质，在视觉问答模型中，通过利用池化处理方式对文本向量进行编码，达到精简视觉问答模型的目的，而且通过池化处理这种简单的编码方式，减少了视觉问答模型中需要进行训练的参数的数量，有效的提升了视觉问答模型训练效率，更有益于工程上的使用。