[发明专利]基于多关系图模型的多模态对话问答生成方法在审
申请号: | 202211451009.5 | 申请日: | 2022-11-18 |
公开(公告)号: | CN115712709A | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 吕姚嘉;朱文轩;刘铭;徐洁馨;李秋霞;秦兵 | 申请(专利权)人: | 哈尔滨工业大学;招商银行股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;H04N21/44;G06F40/35 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关系 模型 多模态 对话 问答 生成 方法 | ||
基于多关系图模型的多模态对话问答生成方法,涉及一种多模态对话问答生成方法。本发明为了解决现有的多模态对话系统仅考虑场景序列化信息而导致现有模型效果一般的问题。本发明首先将视频序列化切分为多个视频片段,对于每个片段获取该片段的色彩特征、光流特征和音频特征,并拼接起来,再加入位置信息和模态信息得到各个视频片段的序列表示;将每个视频片段视作顶点,构建基于全联通关系的视频图并输入图卷积神经网络,得到视频隐藏层序列以及与原视频序列的融合表示;然后利用相似的方式处理基于视听场景标题和对话历史对应的词向量得到各自对应的文本隐藏层序列以及与原文本序列的融合表示;最后利用神经网络模型生成回答。
技术领域
本发明属于对话问答技术领域,具体涉及一种多模态对话问答生成方法。
背景技术
当前对话问答系统领域内研究主要分为文本和多模态两大分支。文本对话问答任务主要具有两大难点:回答生成需要对话上下文推理和欠缺大规模对话数据集。由于预训练语言模型(Language Models,LMs)已经从其它文本数据中习得丰富的语义信息,可以进行一定程度的推理,并且有效弥补对话数据量不足的问题,使系统在低资源背景下仍能取得较好的结果。因此,将预训练语言模型引入对话问答任务可以加深系统对文本的理解,基于历史对话轮次的推理处理当前用户提问,提高生成回答的质量。ISCA2020中,Whang等人在开放域对话中应用预训练语言模型来选择候选回答,其中预训练语言模型的输出(如BERT中的[CLS]标志)被用作每个对话上下文和候选答案对的上下文表示。WNGT2019中,Budzianowski等人假设可以获得真实对话状态,将输入合并为单个序列以生成任务导向型对话的响应。由于对话状态和数据库状态可以视作原始文本输入,可以使用预训练语言模型对系统进行微调。ICASSP2020中,Lai等人引入GPT-2模型,利用模型的输出表示预测插槽值,进而跟踪对话状态。
ACL2020中,层次指针网络也在文本对话系统中得到了广泛应用。ICLR2019中,Wu等人合并了全局编码器和本地解码器,实现了在任务导向型对话设置中共享外部知识。NAACL2019中,Reddy等人面向任务导向型对话设计了一个多级存储的框架。ACL2019中,Tian等人探索了如何在训练过程中提取有价值的信息,并以此搭建了一个记忆启动架构。此外,多任务学习也被证明可以优化自然语言回答的表现。ACL2019中Chen等人的工作中,工作记忆被引入该任务,通过与两个长期记忆充分交互,它可以捕获对话历史和知识库的元组以生成高质量回答。EMNLP2019中,Lin等人鉴于异构记忆网络具有同时利用话上下文、用户提问和知识库信息的能力,也将其应用于该领域的研究。
多模态对话问答为实现功能强大的对话系统开创了新的格局。当前研究主要聚焦于如何利用静态图像和文本之间多粒度互补信息弥合语言和视觉的差距,例如CVPR2017中,Das等人提出的视觉对话(Visual Dialog)任务提供了图片及与之相关的多轮对话,要求模型可以根据给定的图像和对话历史,用自然语言正确回答提问者相关的问题。尽管该任务在推进多模态对话问答系统的发展进程上具有重大意义,但根据静态图像的对话存在一定固有的限制,它很大程度上限制了问答系统对时空变化的动态感知能力,使之无法合理应对许多需要理解特定场景上下文以作出合理推断的应用。因此,为提升问答系统对时空智能性,引入一个新任务——视听场景感知对话(Audio-Visual Scene-Aware Dialog,AVSD),它可以看作视觉对话的一般形式,即基于连续图片帧和音频信息的视觉对话,相较于视觉对话有更广泛的应用前景。然而,现有方案主要使用独立编码器对不同模态分别进行编码,然后利用注意力机制融合其表示并生成响应语句。这种后期融合的方案只考虑了场景和对话的序列化特征,且忽视了不同模态间多粒度语义互补关系,导致现有模型的效果并不尽如人意。因此,探索对话场景的语义信息表示和模态融合方式对实现更高性能的多模态对话问答系统具有重要意义。
与此同时,多模态对话领域相关研究的重心正在向如何充分融合多源异构信息偏移,包括图像、音频、视频和文本等。相较于文本对话问答,多模态对话问答任务额外引入了对话相关的音视频特征,因而需要解决不同模态间的细粒度交互问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学;招商银行股份有限公司,未经哈尔滨工业大学;招商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211451009.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢模板连接支撑装置
- 下一篇:手持式氧化铝收集装置及其收集方法