[发明专利]基于多关系图模型的多模态对话问答生成方法在审
申请号: | 202211451009.5 | 申请日: | 2022-11-18 |
公开(公告)号: | CN115712709A | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 吕姚嘉;朱文轩;刘铭;徐洁馨;李秋霞;秦兵 | 申请(专利权)人: | 哈尔滨工业大学;招商银行股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;H04N21/44;G06F40/35 |
代理公司: | 哈尔滨华夏松花江知识产权代理有限公司 23213 | 代理人: | 岳昕 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关系 模型 多模态 对话 问答 生成 方法 | ||
1.一种基于多关系图模型的多模态对话问答生成方法,其特征在于,包括以下步骤:
S1、使用固定大小的滑动窗口将视频序列化切分为多个视频片段,对于每个片段,获取该片段的色彩特征和光流特征以及音频特征
将色彩特征光流特征和音频特征拼接起来得到再加入位置信息和模态信息得到各个视频片段的序列表示Vt;表达式为:
其中,位置信息中使用数字指代每个视频片段出现的次序,模态信息中使用标识符[video]统一标识视频特征,在实际计算时将其转换成固定维度的向量;
S2、针对视听场景表示V=(V1,V2,...,Vm),V1,V2,...,Vm即为各个视频片段的序列表示,将每个视频片段视作顶点,构建基于全联通关系的视频图其中是有向依赖边的集合,对于每条有向依赖边(Vi,Vj,lij),lij表示从Vi到Vj的依赖关系,且设置为1;
将视频图输入图卷积神经网络,输出视频隐藏层序列GV;
S3、将视频隐藏层序列GV和原视频序列表示V输入线性层得到视频的融合表示并作为后续基于GPT-2架构的多层TRANSFORMER模型的部分输入;
S4、基于视听场景标题C和对话历史H得到对应的词向量表示Cfeature和Hfeature;将标题词向量Cfeature和对话历史词向量Hfeature拼接起来,再加入位置信息Tpos和模态信息Tmod得到文本序列表示T;表达式为:
Tfeature=[Cfeature,Hfeature],
T=Tfeature+Tmod+Tpos,
其中,位置信息Tpos中使用数字指代标题和每个问答对中单词出现的次序,Tpos中使用标识符[cap]统一标识视听场景标题,标识符[usr1]标识提问者,标识符[usr2]标识回答者,在实际计算时分别将其转换成固定维度的向量;
S5、将S4得到的文本序列表示T中的每个词向量视作顶点,构建基于句子级依存关系的图结构和/或基于完整对话共指关系的图结构
然后将句子级依存关系的图结构和/或基于完整对话共指关系的图结构分别输入图卷积神经网络,得到各自对应的文本隐藏层序列;
S6、将句子级依存关系的图结构和/或基于完整对话共指关系的图结构对应的文本隐藏层序列和原文本序列表示T输入线性层得到文本的融合表示并作为后续基于GPT-2架构的多层TRANSFORMER模型的部分输入;
S7、将和拼接获得增强多模态输入,并将增强多模态输入基于GPT-2架构的多层Transformer模型生成回答。
2.根据权利要求1所述的一种基于多关系图模型的多模态对话问答生成方法,其特征在于,S5中将S4得到的文本序列表示T中的每个词向量视作顶点构建基于句子级依存关系的图结构并得到对应的文本隐藏层序列的过程包括以下步骤:
首先使用GPT2 Tokenizer获得每个单词对应的词向量表示,使用Stanford CoreNLP文本解析工具分析该句子的句法依存关系,将每个词向量视作顶点,并依据句法依存关系建模图结构;然后输入图卷积神经网络,输出文本隐藏层序列GD。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学;招商银行股份有限公司,未经哈尔滨工业大学;招商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211451009.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢模板连接支撑装置
- 下一篇:手持式氧化铝收集装置及其收集方法