[发明专利]一种视频中动作语义识别检索的方法有效
| 申请号: | 202111194986.7 | 申请日: | 2021-10-14 |
| 公开(公告)号: | CN113627410B | 公开(公告)日: | 2022-03-18 |
| 发明(设计)人: | 翟晓东;汝乐;凌涛;凌婧 | 申请(专利权)人: | 江苏奥斯汀光电科技股份有限公司 |
| 主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 徐激波 |
| 地址: | 210046 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 视频 动作 语义 识别 检索 方法 | ||
本发明公开了一种视频中动作语义识别检索的方法,包括如下步骤:将视频切割成存在运动的分段运动视频,找出分段运动视频中的稳定帧;进行SlowFast自适应跨帧动作识别;将提取出的分段运动视频作为Fast算法模块的输入;稳定帧作为slow算法模块的输入,利用SlowFast算法进行动作语义识别,得到对应的动作语义识别结果Out1,建立视频检索库,当用户输入对应动作语义查询时,提取出对应的分段运动视频以供用户查询。它通过预处理,可以在大大减少SlowFast算法的计算量的前提下,提高其准确性。
技术领域
本发明属于动作语义识别技术领域,具体涉及一种视频中动作语义识别检索的方法。
背景技术
在日常生活中,人们有时需要在一段很长的视频中,寻找一组特定的动作片段。例如在几天的视频数据中,判断老人跌倒的时间,从而观测其跌倒时的周围情况。但是,我们很可能不知道具体的时间、地点,不知道哪个摄像头的视频中,出现过这一动作。人们需要一个基于动作的语义的视频检索功能。当我们在很多地方的很多视频中,检索到相同的动作后,我们可以把这些动作视频集中起来,形成一个整体相同动作的效果,可以集中在一个多屏幕的智能展示系统上展示,起到一个整齐划一的效果。
在类似的工作中,存在基于人脸识别、旁白识别的工作,但是基于动作语义的视频检索功能的研究较少,目前,最著名的相关算法是何凯明的SlowFast算法,该算法的核心思路是,视频行为识别需要从视频中提取鲁棒的外观和运动特征来进行行为识别,所谓SlowFast是指采用Slow和Fast两种采样率的path来并行处理视频,输入两个path的是视频采样后的帧,Slow path以较低的采样率来处理输入视频,提取随时间变化较慢的外观特征,为了提取鲁棒的外观特征,卷积核的空间通道数较大;Fast path以较高的采样率来处理输入视频,提取随时间变化较快的运动特征,为了降低该通道的复杂度,卷积核的空间通道数较小;然后通过横向连接对两个path的特征进行融合,进行行为识别。
SlowFast算法中,存在以下问题:
1、在SlowFast的慢算法模块中,其慢通道可以是任意一个将视频片段作为时空立方体输入的卷积模型,例如[12,49,5,56]。Slow pathway的关键理念是:输入视频帧的时间跨度τ很大,也就是说每τ帧才处理一帧。其研究的典型τ值为16,也就是说对于30帧的视频,slow pathway每秒大约采样处理1~2帧。将slow pathway采样处理的帧数表示为T,那么原始视频片段的长度就是T×τ帧,这一个模块的是整个识别动作语义的核心。
但是,视频中人们的运动往往是存在运动模糊的,对于一个上述长度为30帧的视频而言,其只用到了2帧,这2帧只要有1帧是模糊的,那么整个的识别效果就会大打折扣。由于运动原本就是动作识别的前提,就是说,运动模糊会永远伴随这个问题,所以说上述的2帧是很有可能存在运动模糊的。
2、在SlowFast的快算法模块中,它是一个具有以下特性的另一个卷积模型,它具有高帧率。快通道Fast pathway的目标是在时间维度上有很好的表示,Fast分支的时间跨度是τ/α,其中α是快慢分支的帧率比,α1,显然Fast分支的时间跨度stride比Slow分支要小。这两个分支在相同的原始视频片段上执行,所以Fast分支处理的帧数就是αT,比Slow分支密集了α倍,实验中的典型值为α=8。α的存在是SlowFast概念的关键所在,它明确表明了两个路径以不同的时间速度工作,从而驱动了两个子网,即两个路径的实例化网络。
在这里,Fast模块也存在一个问题,就是在常见的动作视频数据集中,很明显,各个动作视频内容的长短不一,有的是10帧左右,有的是60帧左右,也就是说,动作与动作之间的时间跨度是不一样的,所以,用固定的帧跨度去解决所有的动作范围,是不合适的。如果我们选择用大于最大值,即大于60帧以上的时间跨度去平滑计算,理解所有的动作,那么计算量就会很大。因此存在一个动作检测的预处理工作,就可以减少快通道的计算量。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏奥斯汀光电科技股份有限公司,未经江苏奥斯汀光电科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111194986.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:船舶自洗舱机械
- 下一篇:虚拟机磁盘的加密方法、系统及计算机可读存储介质





