[发明专利]一种基于跨模态注意力机制的视听事件定位方法及装置有效
申请号: | 202110235810.5 | 申请日: | 2021-03-03 |
公开(公告)号: | CN112989977B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 于家硕;程颖;冯瑞 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/82;G06N3/04;G06N3/08;G10L15/16 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 郁旦蓉 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 跨模态 注意力 机制 视听 事件 定位 方法 装置 | ||
本发明提供了一种基于跨模态注意力机制的视听事件定位方法及装置,用于对目标音视频中的事件进行识别与定位,其特征在于,包括如下步骤:对目标音视频进行预处理得到图像特征以及音频特征;基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出目标音视频中每一个时刻的事件类别。其中,神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块。跨模态注意力机制模块用于获取视频模态与音频模态间的信息,并使用一个模态的信息处理另一模态的信息,实现模态间的信息交互。单模态自注意力机制模块以及循环神经网络模块用于捕捉模态内的长距离依赖关系。
技术领域
本发明属于数据识别领域,具体涉及一种基于跨模态注意力机制的视听事件定位方法及装置。
背景技术
在当前机器学习技术及计算机硬件性能高速提升的情况下,近年来计算机视觉、自然语言处理和语音检测等应用领域取得了突破性进展。而着眼于研究不同模态之间关系的跨模态任务也随之出现,并得到了广泛的研究。
其中,模态是指数据的存在形式,比如文本、音频、图像、视频等不同的文件格式为不同模态。有些数据的存在形式不同,但都是描述同一事物或事件。而在信息检索的需求往往不只是同一事件单一模态的数据,也可能需要其他模态的数据来增强对同一事物或事件的认知,此时就需要跨模态算法来研究不同模态数据之间的联系。跨模态任务能够通过对不同模态之间数据的关联和联系进行研究,从而得到超出两种模态数据本身的信息。
事件/动作识别和定位任务拥有广阔的应用范围,比如对于一段给定的视频,算法可以自动识别出视频中每一秒钟的事件类别,也能对视频中某一事件的起始时间进行定位。同时,该算法也可以应用到实时视频的检测中,比如在视频监控领域中,算法可以实时识别出所监控的场景下发生的事件类别,如检测到异常事件可以第一时间进行报告。事件/动作识别和定位一直被看成一个单模态问题,不管是动作识别,还是时序动作定位,都有多种计算机视觉领域的算法对其进行处理,并取得了比较不错的结果。然而正如之前,如果将视频中的音频信息也考虑进来,把视频中的视觉模态的信息和听觉模态的信息同时结合起来,就能进一步提高识别与定位准确率。
虽然,在当下也存在少数使用多模态信息进行事件/动作识别任务的算法。但是,现有的视听事件定位算法,一般采取注意力机制和传统循环神经网络结合的方式。在这些算法中,注意力机制一般使用的是软注意力机制,而该软注意力机制的效果相对较差。而自注意力机制的效果虽然优秀,但是该自注意力机制无法直接应用到跨模态任务上。
发明内容
为解决上述问题,提供了一种将自注意力机制应用到跨模态任务上的视听事件定位方法及装置,本发明采用了如下技术方案:
本发明提供了一种基于跨模态注意力机制的视听事件定位方法,用于对目标音视频中的事件进行识别与定位,其特征在于,包括如下步骤:步骤S1-1,利用预定的预处理方法对目标音视频进行预处理得到图像特征以及音频特征;步骤S1-2,基于图像特征以及音频特征利用预先训练好的基于跨模态注意力机制的神经网络模型进行识别与定位,从而得出目标音视频中每一个时刻的事件类别,其中,神经网络模型包括跨模态注意力机制模块、单模态自注意力机制模块、循环神经网络模块以及分类模块,跨模态注意力机制模块利用多头注意力机制针对图像特征融合音频特征得到视觉双模态特征,并通过残差结构将视觉双模态特征与图像特征相加得到视觉跨模态特征,跨模态注意力机制模块利用多头注意力机制针对音频特征融合图像特征得到听觉双模态特征,并通过残差结构将听觉双模态特征与音频特征相加得到听觉跨模态特征,单模态自注意力机制模块分别对视觉跨模态特征以及听觉跨模态特征进行单模态片段间关系捕捉,得到对应的视觉自注意力特征以及听觉自注意力特征,循环神经网络模块分别对视觉自注意力特征以及听觉自注意力特征进行长距离依赖关系捕捉,得到对应的视觉特征以及听觉特征,分类模块包括全连接层以及Softmax函数,该分类模块基于视觉特征以及听觉特征进行分类,从而得出目标音视频中每一个时刻的事件类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110235810.5/2.html,转载请声明来源钻瓜专利网。