[发明专利]一种基于双视觉注意力网络的视觉对话生成方法在审
申请号: | 201910881305.0 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110647612A | 公开(公告)日: | 2020-01-03 |
发明(设计)人: | 郭丹;王辉;汪萌 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/332;G06F16/583 |
代理公司: | 34101 安徽省合肥新安专利代理有限责任公司 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉特征 视觉 注意力 视觉注意力 特征提取 智能体 对话 预处理 答案 解码 参数优化 答案生成 对话文本 对话信息 特征序列 网络模型 文本语义 问题信息 优化处理 语义融合 语义信息 多模态 细粒度 预测 构建 合理性 网络 图像 中文 | ||
本发明公开了一种基于双视觉注意力网络的视觉对话生成方法,包括以下步骤:1、视觉对话中文本输入的预处理和单词表的构建;2、对话图像的特征提取以及对话文本的特征提取;3、基于当前问题信息对历史对话信息进行注意力处理;4、双视觉特征各自独立的注意力处理;5、双视觉特征相互交叉的注意力处理;6、视觉特征的优化处理;7、多模态语义融合及解码生成答案特征序列;8、基于双视觉注意力网络的视觉对话生成网络模型的参数优化;9、预测答案生成。本发明能为智能体提供更完整、更合理的视觉语义信息,以及更细粒度的文本语义信息,从而提高智能体对问题所预测生成的答案的合理性和准确性。
技术领域
本发明属于计算机视觉技术领域,涉及到模式识别、自然语言处理、人工智能等技术,具体地说是一种基于双视觉注意力网络的视觉对话生成方法。
背景技术
视觉对话是一种人机交互方法,其目的是让机器智能体与人类能够对给定的日常场景图以问答的形式进行合理正确的自然对话。因此,如何让智能体正确的理解由图像、文本组成的多模态语义信息从而对人类提出的问题给出合理的回答是视觉对话中的关键。视觉对话目前也是计算机视觉领域热门研究课题之一,其应用场景也非常的广泛,包括:帮助视觉障碍的人群了解社交媒体内容或日常环境、人工智能助力、机器人应用等方面。
随着现代图像处理技术和深度学习的发展,视觉对话技术也得到了巨大的发展,但是仍然面临以下几点问题:
一、智能体在处理文本信息时缺乏对文本特征进行更细粒度的学习。
例如2017年,Jiasen Lu等作者在顶级国际会议Conference and Workshop onNeural Information Processing Systems(NIPS 2017)上发表的文章《Best ofBothWorlds:Transferring Knowledge from Discriminative Learning to a GenerativeVisual Dialog Model》中提出的基于历史对话的图像注意力方法,该方法首先对历史对话进行句子层面的注意力处理,然后基于处理后的文本特征对图像特征进行注意力学习,但是该方法在处理当前问题的文本信息时只考虑了句子层面的语义,没有考虑词层面的语义,而在实际提问的句子里面通常只有部分关键词是与预测的答案最相关的。因此,该方法在实际应用时会有一定的局限性。
二、现有方法都基于全局图像进行特征提取,导致视觉语义信息不够精确。
例如2018年,Qi Wu等作者在顶级国际会议IEEE Conference on ComputerVision and Pattern Recognition(CVPR 2018)上发表的《Are You Talking to Me?Reasoned Visual Dialog Generation throughAdversarial Learning》。这篇文章利用全局视觉特征、问题以及历史对话文本特征进行一系列的相互注意力处理并融合得到多模态语义特征,该方法有效的学习了不同特征之间的语义关系,但是该方法只考虑了全局视觉特征,使得在对图像进行注意力处理后经常会关注到一些问题无关的视觉信息,这些冗余信息会对智能体的答案预测造成干扰。
发明内容
本发明是为了克服现有技术存在的不足之处,提出一种基于双视觉注意力网络的视觉对话生成方法,以期能为智能体提供更完整、更合理的视觉语义信息,以及更细粒度的文本语义信息,从而提高智能体在对问题进行答案推理生成时的合理性和准确性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于双视觉注意力网络的视觉对话生成方法的特点是按如下步骤进行:
步骤1、视觉对话中文本输入的预处理和单词表的构建:
步骤1.1、获取视觉对话数据集,所述视觉对话数据集中包含句子文本和图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910881305.0/2.html,转载请声明来源钻瓜专利网。