[发明专利]基于异质图神经网络的文本视觉问答实现方法在审
申请号: | 202110370266.5 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113094484A | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 高晨雨;朱琪;王鹏 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 吕湘连 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 异质图 神经网络 文本 视觉 问答 实现 方法 | ||
本发明提出一种基于异质图神经网络的文本视觉问答实现方法。该方法中网络结构分为问题自我注意力模型、异质图注意力模型和全局‑局部注意力应答模型三部分。问题自我注意力模型将一个具有T个单词的问题Q,通过预训练的BERT网络得到输入单词对应的融合全文语义信息的词向量;异质图注意力模型从图像中构建异质图,采用注意力机制,使用不同的问题特征更新异质图的不同部分,得到问题条件下对象和文本的异质图特征;全局‑局部注意力应答模型采用迭代的方式,得到函数预测答案。本方法中,二分支评价函数使得生成的答案可以同时兼顾OCR标记和一般文本标记,从而提高了应答的准确率,最终达到高精度的效果。
技术领域
本发明属基于文本视觉问答领域,具体为采用问题自我注意模块-异质图注意力模型-全局局部注意力应答模型结构的高精度文本视觉问答实现方法。
背景技术
视觉问答(visual Question answer,VQA)是计算机视觉和自然语言处理领域的一个交叉领域,自大规模的VQA数据集发布以来,该领域引起了越来越多的关注。随着深度神经网络的发展,视觉问答技术已经取得了很大的进步。文本视觉问答(TextVQA)是近年来提出的一项挑战,它要求机器读取图像中的文本,并通过对问题、光学字符识别(OCR)标记和视觉内容的联合推理来回答自然语言问题。大多数最先进的VQA方法无法回答这些问题,原因是:1)文本阅读能力差;2)缺乏文视推理能力;3)应答机制在最终应答中难以同时覆盖OCR标记和一般文本标记。
因此,本专利主要为了解决上述问题而设计。本专利使得文本视觉应答算法能够在高文本阅读能力和文视推理能力,以及同时兼顾OCR标记和一般文本标记的前提下,达到高精确度的效果。
发明内容
为了解决上述问题,本发明提供了一种基于异质图神经网络的文本视觉问答实现方法。
本发明的技术方案如下:一种基于异质图神经网络的文本视觉问答实现方法,所述网络结构分为问题自我注意力模型、异质图注意力模型和全局-局部注意力应答模型三部分(如图1所示)。问题自我注意力模型(如图2所示)基于BERT网络,获取文本问题的词向量特征,再通过六分类网络将问题特征分解为六个子组件,包括对象(object,o),对象-对象关系(object-object,oo),对象-文本关系(object-text,ot),文本(text,t),文本-文本关系(text-text,tt),文本-对象关系(text-object,to),并提取每个组件的分解的问题特征和自我注意力权重。异质图注意力模型(如图3所示)受图卷积网络的启发而设计,从输入图像中提取对象和文本相关信息并构建异质图,使用前一步得到的分解的问题特征采用注意力机制对异质图进行推理,得到结点和边的注意力权重和异质图问题特征。全局-局部注意力应答模型(如图4所示)受M4C模型启发,使用transformer将分解的问题特征和异质图问题特征进行特征融合,在解码部分使用我们设计的二分支评价函数以迭代的方式生成同时兼顾OCR标记和一般文本标记的答案。
所述文本视觉问答实现方法包括以下主要步骤:
(1)问题自我注意力模型将一个具有T个单词的问题Q表示为词向量通过预训练的BERT网络得到输入单词对应的融合全文语义信息的词向量词向量通过六个单独的三层MLP网络,同时每个网络后紧接着softmax层,从而生成T个单词对应六种组件的注意力权重的集合结合词向量从而得到六个组件的分解的问题特征so,soo,sot,st,stt,sto。此外,将词向量直接通过全连接层和softmax层得到六个组件的自我注意权重wo,woo,wot,wt,wtt,wto。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110370266.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三维立体环境监测系统
- 下一篇:一种可调节长度的手臂康复机器人