[发明专利]基于网络结构搜索的视觉问答方法有效
申请号: | 202110464526.5 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113282721B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 俞扬;詹德川;周志华;乔康;管聪;秦熔均;袁雷;张云天;胡毅奇 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/338;G06N3/045 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 网络 结构 搜索 视觉 问答 方法 | ||
本申请提供了一种基于网络结构搜索的视觉问答方法,包括如下步骤:采用第一人工神经网络模型对原始图片进行特征提取;采用第二人工神经网络模型对文本信息进行特征提取;待搜索的网络结构框架为编码‑解码器框架,定义三种搜索算子供框架网络搜索,所述搜索算子的输入为基于所述原始图片或/和所述文本信息所提取的图像特征或文本特征;使用基于梯度交替优化策略搜索网络结构的架构权重和算子的操作权重;使搜索网络按照多分类的方法输出候选词向量,并选择概率最大的词向量作为答案输出。本申请的有益之处在于提供了一种能在更大的空间搜索出更好的效果的基于网络结构搜索的视觉问答方法。
技术领域
本申请涉及视觉问答领域,具体而言,涉及一种基于网络结构搜索的视觉问答系统方法。
背景技术
随着深度学习的发展,视觉问答得到广泛应用,然而传统视觉问答系统仍存在一定缺陷,传统视觉问答系统中的多模态特征融合部分是专家设计的非常有技巧的网络结构,可通过网络结构搜索技术自动设计网络结构,才能够在充分大的空间中找到最优的网络结构。
具体而言,近几年,随着人工智能的快速发展并取得重要成功,视觉问答(VisualQuestion Answering,VQA)作为计算机视觉和自然语言处理的交叉领域,引起人们的广泛关注。VQA任务广泛存在于现实生活中,人类能够轻易理解图像中的各种“信息”,比如图像中事物的位置信息,事物间的逻辑信息等,再根据文本问题信息,综合图像和已知知识库的信息,做出回答并将其转化为文本输出。实现VQA任务,能够对社会提供诸多便利。让计算机能够实现“看图说话”,在图像描述、图像检索、辅助驾驶等领域被广泛应用;特别的,对于残障人士,采用VQA系统代替人眼,可以帮助其更好地理解周围事物,使盲人导航更加准确、易交互。
如何高效准确地融合视觉和文本特征是VQA中的核心部分,特征融合指的是不同种类数据向量化后融合,能够保留多种数据特征。当前主流的VQA中的特征融合一般基于双线性池化方法,双线性池化存在融合后特征维度过高的问题,针对以上问题,一系列方法被提出,其中多模紧致双线性池化和多模低秩双线性池化,前者利用Random Maclaurin和Tensor Sketch两个方法来进行降维,后者利用Hadamard积低秩的线性映射来实现双线性池化的计算,都大大降低了运算。网络结构搜索(Nerural Architecture Search,NAS)是近几年大热的深度学习分支。当前网络都是专家的人工设计,这些深度学习网络设计有明显“先验”痕迹,如图像分类领域的RCNN系列网络,从RCNN网络至Fast-RCNN网络,至Faster-RCNN网络,再至Mask-RCNN网络,每一次升级综合前面的网络的“先验”的设计优点,再加以改进,但是随着网络结构越来越复杂,人工设计网络试错成本越来越高。
发明内容
为了解决现有技术的不足之处,本申请提供了一种基于网络结构搜索的视觉问答系统方法包括如下步骤:
采用第一人工神经网络模型对原始图片进行特征提取;
采用第二人工神经网络模型对文本信息进行特征提取;
采用Encoder-Decoder框架作为搜索网络的主体框架,设计三种基于注意力的待搜索算子,所述搜索算子的输入为基于所述原始图片或/和所述文本信息所提取的图像特征或文本特征;
采用基于梯度的交替优化策略搜索网络的架构权重和算子的操作权重;
使搜索网络按照多分类的方法输出候选词向量,并选择概率最大的词向量作为答案输出。
进一步地,所述第一人工神经网络模型为faster-RCNN。
进一步地,所述第二人工神经网络模型为BERT。
进一步地,所述搜索网络结构是一个Encoder-Decoder网络结构,网络结构的节点个数分别为M,N。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110464526.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种柔性钙钛矿叠层式波长上转换传感器
- 下一篇:一种叉车智能监测装置