首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于跨模态注意力机制的视听事件定位方法及装置有效

申请号：	202110235810.5	申请日：	2021-03-03
公开（公告）号：	CN112989977B	公开（公告）日：	2022-09-06
发明（设计）人：	于家硕;程颖;冯瑞	申请（专利权）人：	复旦大学
主分类号：	G06V20/40	分类号：	G06V20/40;G06V10/764;G06V10/82;G06N3/04;G06N3/08;G10L15/16
代理公司：	上海德昭知识产权代理有限公司 31204	代理人：	郁旦蓉
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于跨模态注意力机制视听事件定位方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于跨模态注意力机制的视听事件定位方法，用于对目标音视频中的事件进行识别与定位，其特征在于，包括如下步骤：

步骤S1-1，利用预定的预处理方法对所述目标音视频进行预处理得到图像特征以及音频特征；

步骤S1-2，基于所述图像特征以及所述音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出所述目标音视频中每一个时刻的事件类别，

其中，所述神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块，

所述跨模态注意力机制模块利用多头注意力机制针对所述图像特征融合所述音频特征得到视觉双模态特征，并通过残差结构将所述视觉双模态特征与所述图像特征相加得到视觉跨模态特征，

所述跨模态注意力机制模块利用多头注意力机制针对所述音频特征融合所述图像特征得到听觉双模态特征，并通过残差结构将所述听觉双模态特征与所述音频特征相加得到听觉跨模态特征，

所述单模态自注意力机制模块分别对所述视觉跨模态特征以及所述听觉跨模态特征进行单模态片段间关系捕捉，得到对应的视觉自注意力特征以及听觉自注意力特征，所述单模态自注意力机制模块的QKV矩阵全部来自于当前模态，从而能够捕捉单模态内的长距离依赖关系，

所述循环神经网络模块分别对所述视觉自注意力特征以及所述听觉自注意力特征进行长距离依赖关系捕捉，得到对应的视觉特征以及听觉特征，

所述分类模块包括全连接层以及Softmax函数，该分类模块基于所述视觉特征以及所述听觉特征进行分类，从而得出所述目标音视频中每一个时刻的事件类别。

2.根据权利要求1所述的基于跨模态注意力机制的视听事件定位方法，其特征在于：

其中，在所述单模态自注意力机制模块分别对所述视觉跨模态特征以及所述听觉跨模态特征进行单模态片段间关系捕捉处理前，利用层归一化操作分别对所述视觉跨模态特征以及所述听觉跨模态特征进行归一化处理。

3.根据权利要求1所述的基于跨模态注意力机制的视听事件定位方法，其特征在于：

其中，所述预处理方法包括如下步骤：

步骤S2-1，分别对所述目标音视频中的视频以及音频进行处理，得到对应的图像序列以及音频序列；

步骤S2-2，利用预先训练好的图像特征提取模型从所述图像序列中提取到所述图像特征，利用预先训练好的音频特征提取模型从所述音频序列中提取得到所述音频特征，

所述步骤S2-1包括如下子步骤：

步骤S2-1-1，将所述视频按照预定的时间间隔分割，得到多个视频片段，从每个所述视频片段中抽取预定数量的图像帧，从而构成所述图像序列，

步骤S2-1-2，利用梅尔频谱处理所述音频，从而得到所述音频序列。

4.根据权利要求3所述的基于跨模态注意力机制的视听事件定位方法，其特征在于：

其中，所述图像特征提取模型为VGG-19模型，所述音频特征提取模型为VGGish模型。

5.根据权利要求1所述的基于跨模态注意力机制的视听事件定位方法，其特征在于：

其中，所述循环神经网络模块为LSTM模块。

6.一种基于跨模态注意力机制的视听事件定位装置，用于对目标音视频中的事件进行识别与定位，其特征在于，包括如下步骤：

预处理部，利用预定的预处理方法对所述目标音视频进行预处理得到图像特征以及音频特征；

识别定位部，基于所述图像特征以及所述音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位，从而得出所述目标音视频中每一个时刻的事件类别，

其中，所述神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块，

所述跨模态注意力机制模块利用多头注意力机制针对所述图像特征融合所述音频特征得到视觉双模态特征，并通过残差结构将所述视觉双模态特征与所述图像特征相加得到视觉跨模态特征，

所述跨模态注意力机制模块利用多头注意力机制针对所述音频特征融合所述图像特征得到听觉双模态特征，并通过残差结构将所述听觉双模态特征与所述音频特征相加得到听觉跨模态特征，

所述单模态自注意力机制模块分别对所述视觉跨模态特征以及所述听觉跨模态特征进行单模态片段间关系捕捉，得到对应的视觉自注意力特征以及听觉自注意力特征，所述单模态自注意力机制模块的QKV矩阵全部来自于当前模态，从而能够捕捉单模态内的长距离依赖关系，

所述循环神经网络模块分别对所述视觉自注意力特征以及所述听觉自注意力特征进行长距离依赖关系捕捉，得到对应的视觉特征以及听觉特征，

所述分类模块包括全连接层以及Softmax函数，该分类模块基于所述视觉特征以及所述听觉特征进行分类，从而得出所述目标音视频中每一个时刻的事件类别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110235810.5/1.html，转载请声明来源钻瓜专利网。

上一篇：基于人工智能驱动的全方位多功能的智能编程教学系统
下一篇：一种机器人生产用自动控制的焊接设备

同类专利

专利分类

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top