[发明专利]一种基于STA-TSN的人类行为识别方法及系统有效
申请号: | 202110827413.7 | 申请日: | 2021-07-21 |
公开(公告)号: | CN113705345B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 杨国安;杨勇;陆正之;杨竣杰;刘德阳;周传波;樊子恩 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/20;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 贺小停 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 sta tsn 人类 行为 识别 方法 系统 | ||
1.一种基于STA-TSN的人类行为识别方法,其特征在于,包括以下步骤:
将视频分为N段,从每一段中提取k帧;
根据多尺度空间焦点特征增强策略在原有特征的基础上融合空间焦点特征;
在TSN中建立关键帧探索模块探索在每一段视频中的关键帧;
增加正则项引导关键帧探索模块进行有目的性的探索关键帧;
使用空间金字塔池化SPP去探索多尺度空间焦点特征:
对于第n段第t帧图像,从CNN的最后一层卷积层中获得维度为H×H×C的特征图An,t,其中H×H为一个特征图中的像素个数,C为特征图的通道数;将An,t复制了三份,分别命名为
对于用来获得多尺度空间注意力权重αn,t;
接着,通过求αn,t和之间的内积来获得多尺度空间焦点特征
最后,将与原始特征的副本相加并通过一个GAP层来获得一个多尺度空间焦点特征增强的全局特征表示Fn,t:
在TSN中建立基于LSTM的关键帧探索模块:
利用LSTM提取的时间动态特征来探索关键帧,具体的,在第n段视频,首先用这一段中的所有采样帧的全局特征表示Fn,1,Fn,2,…,Fn,k作为LSTM的输入;然后,采用软注意力机制的形式将LSTM所有时间步的输出hn,1,hn,2,…,hn,k通过一个被softmax激活的1×1大小的1-D卷积层来得到时间注意力权重βn;
接着,利用获得的时间注意力权重融合第n段中所有采样帧的特征表示来作为该段最终的特征表示Fn;
接着,利用一个全连接层来获得所有类别的得分;同时,对于所有的段,LSTM,卷积层,全连接层都贡献参数;
最终,利用一个平均池化融合所有段的得分来作为视频的最终得分;
正则项为时间注意力正则化:
在训练时间注意力模块之前首先用一个双流结构来训练CNN;利用经过预训练的CNN中得到的卷积特征图来训练与类别个数相同的二分类器,这些二分类器用来判断从视频中抽取的某一帧是否属于这个视频对应的类别;如果被二分类器判为false,认为这一帧不是视频中的关键帧,对于被判定为false的帧,计算它对应的时间注意力权重βn,m与0的均方误差lMSE作为交叉熵损失函数lCE的正则项。
2.根据权利要求1所述的一种基于STA-TSN的人类行为识别方法,其特征在于,获得多尺度空间注意力权重αn,t具体的处理过程如下:首先,让A1n,t通过一个池化层分别为1×1、3×3、5×5和7×7的空间金字塔层来获得多尺度空间特征;然后,采用软注意力机制的形式,利用一个被softmax函数激活的1×1卷积层从多尺度空间特征中获取多尺度空间注意力权重αn,t:
其中,W,b和分别为1×1卷积层的权重,偏置和输出;SPP(·)含义为SPP层的输出。
3.根据权利要求1所述的一种基于STA-TSN的人类行为识别方法,其特征在于,时间注意力权重βn:
βn={βn,1,βn,2,…,βn,t,…,βn,k}
其中,W,b和分别为1×1的1-D卷积层的权重,偏置和输出;βn,t为第n段中第t帧对该段的贡献程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110827413.7/1.html,转载请声明来源钻瓜专利网。