[发明专利]基于时间演化建模和多示例学习的视频动作检测方法有效
| 申请号: | 201810971986.5 | 申请日: | 2018-08-24 |
| 公开(公告)号: | CN109271876B | 公开(公告)日: | 2021-10-15 |
| 发明(设计)人: | 宋砚;唐金辉;李泽超;杨明磊 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
| 代理公司: | 北京化育知识产权代理有限公司 11833 | 代理人: | 尹均利 |
| 地址: | 210094 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 时间 演化 建模 示例 学习 视频 动作 检测 方法 | ||
1.一种基于时间演化建模和多示例学习的视频动作检测方法,其特征在于,包括:特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程;其中
(1)特征提取过程包括以下步骤:
步骤101,把训练视频以及测试视频中每一个16帧的视频片段输入到C3D网络中,提取网络的fc6层的输出作为特征;
步骤102,将步骤101中得到特征使用主成分分析进行降维;
步骤103,将步骤102中降维后的特征使用L2范数对特征进行归一化;
(2)制作训练样本并统计动作长度分布包括以下步骤:
步骤201,使用滑动窗口法在训练视频上按照重叠率剪切动作片段;
步骤202,统计步骤201中得到动作片段的长度分布,即每个动作类中不同滑动窗口长度的训练样本所占的比率;
(3)对训练样本进行时间演化建模并训练多示例学习神经网络包括以下步骤:
步骤301,将步骤201得到的每个训练动作片段均分为三段,同时加上片段前后的32帧片段,一共五段,每段取步骤103中每个16帧的特征的均值,拼接为片段特征;
步骤302,用全连接和MIL pooling层构建多示例学习神经网络,输入为301得到的片段特征,输出为片段的动作类别以及片段的前后偏移量,损失函数为多任务损失,训练神经网络;用全连接和MIL pooling层构建多示例学习神经网络,网络的输入为步骤301得到的片段特征,fc_1中间层,fc_2生成每个类别的temporal instance的得分,维度是C×m,C是动作类别数,m表示每个类别的instance数量,fc_3输出片段的前后偏移量;
在fc_1和fc_2层之前的连接上加入了预定义好的权重,两个层对应的部分权重为0.8,否则为0.2;MIL pooling层基于fc_2层的temporal instance得分来生成片段的动作得分,公式为
其中,σ是sigmoid激活函数,为类别C对应的temporal instance得分,gc为全局池化函数,a为控制激活函数σ斜率的固定参数,bc为每个类别C的适应性软阈值;
网络的损失函数是一个多任务损失:
L=Lcls+λ1Lts+λ2Lreg (3)
其中,Lcls是一个标准的多分类交叉熵损失,Lts是temporal instance得分的平滑约束,Lreg是片段前后偏移的损失,λ1和λ2都设为1,平滑约束定义为:
其中,N是批处理数量,C是动作类别数量,当第i个训练样本的类别标签是c,则否则P表示temporal instance的得分;
片段前后偏移的损失定义为:
其中,是网络输出的片段偏移量,o是步骤201得到的该训练样本与真实动作片段的前后偏移量,下标s和e分别表示片段前和片段后;
使用Adam优化器来训练模型,学习率和批处理数量分别设为0.001和128,迭代次数为13000;
(4)对测试视频进行检测包括以下步骤:
步骤401,用现有的生成动作片段提议方法得到测试视频上的动作片段提议;
步骤402,将步骤401的动作片段提议按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,得到动作类别,以及片段前后的偏移;将片段的前后偏移加到原始片段上,构成新的片段,再按照步骤301得到片段特征,输入到步骤302中训练好的多示例学习神经网络中,如此循环三次,得到最终输出的片段动作类别,动作得分,以及片段的边界;
步骤403,使用步骤202中得到的长度分布对步骤402中的最终的片段动作得分进行调整;
步骤404,使用步骤403中得到的动作片段提议新的动作得分进行非极大值抑制算法计算,去除冗余检测得到动作检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810971986.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于眉部和眼部关键点信息的疲劳检测方法
- 下一篇:一种人形识别方法及装置





