[发明专利]一种基于多模态融合的视频常识性知识推理实现方法在审
申请号: | 202110954600.1 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113869324A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 方跃坚;梁健;余伟江 | 申请(专利权)人: | 北京大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 融合 视频 常识 性知识 推理 实现 方法 | ||
1.一种基于多模态融合的视频常识性知识推理实现方法,其步骤包括:
1)对输入视频分别提取帧内空间特征Vi、帧间时序特征Vt以及声音特征Vs;
2)将帧内空间特征Vi、帧间时序特征Vt以及声音特征Vs进行融合,得到该输入视频的多模态的视频特征VE;
3)对该输入视频的描述性文本进行特征抽取,得到语言特征Ccap,并将视频特征VE和语言特征Ccap进行融合,得到上下文特征[VE,Ccap];
4)将所述上下文特征[VE,Ccap]输入常识推理解码器得到答案的概率分布,然后根据所得答案的概率分布预测该输入视频的常识性知识文本序列。
2.如权利要求1所述的方法,其特征在于,得到所述视频特征VE的方法为:将帧内空间特征Vi通过一个线性层以及一个长短期记忆网络映射到一特征空间,并添加帧内空间特征Vi对应的位置编码PEi和段编码SEi,得到特征Ei;将帧间时序特征Vt通过一个线性层以及一个长短期记忆网络映射到一特征空间,并添加帧间时序特征Vt对应的位置编码PEt和段编码SEt,得到特征Et;将声音特征Vs通过一个线性层以及一个长短期记忆网络映射到一特征空间,并添加声音特征Vs对应的位置编码PEs和段编码SEs,得到特征Es;然后将Ei,Et,Es进行融合,得到所述视频特征VE=[Ei,Et,Es]。
3.如权利要求1所述的方法,其特征在于,得到所述语言特征Ccap的方法为:将该输入视频的描述文本经过嵌入层编码以及位置编码得到文本摘要编码Tcap,然后将Tcap作为摘要解码器查询向量Q、将视频特征VE作为摘要解码器的键K和值y向量,进行多头注意力机制的计算,得到所述语言特征Ccap。
4.如权利要求3所述的方法,其特征在于,进行多头注意力机制的计算公式为:
yt=FFN(Z)、其中,dk为键K的维度,FFN是前馈网络,是摘要解码器的优化函数,yt是需要预测的词元,v是输入视频,Θcap为摘要解码器的模型参数。
5.如权利要求4所述的方法,其特征在于,得到答案的概率分布的方法为:常识推理解码器利用历史预测的词元yt-1通过内存记忆模块MMHA得到一个条件注意力图Acondition;然后将该条件注意力图Acondition与多头注意力模块根据历史词元产生的特征图Ao融合得到一个引导注意力图Aguide,将该引导注意力图Aguide通过残差连接的方式桥接上层注意力图Aprevious,得到融合后的注意力Amerge;然后对该注意力Amerge进行掩码操作,遮盖掉处于当前序列之后的注意力值,再送入归一化函数得到归一化后的注意力;然后将该归一化后的注意力通过与视频特征VE进行点积并通过线性层得到答案的概率分布。
6.如权利要求1所述的方法,其特征在于,利用预测该输入视频的常识性知识文本序列;其中,DATT为属性解码器,DEFF为结果解码器,DINT为意图解码器,VE表示输入视频的多模态特征,Ccap表示视频描述文本的特征,当前常识性知识的文本词元由历史词元Catt,Ceff,Cint按自回归方式依次产生。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954600.1/1.html,转载请声明来源钻瓜专利网。