[发明专利]一种基于3D深度卷积网络的人类行为识别的方法有效
申请号: | 201710697809.8 | 申请日: | 2017-08-15 |
公开(公告)号: | CN107506712B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 高联丽;宋井宽;王轩瀚;邵杰;申洪宇 | 申请(专利权)人: | 成都考拉悠然科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 夏艳 |
地址: | 610015 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 卷积 网络 人类 行为 识别 方法 | ||
1.一种基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述基于3D深度卷积网络的人类行为识别的方法首先将一个视频划分为一系列连续的视频片段;然后,将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征;然后通过长短记忆模型计算全局的视频特征作为行为模式;
所述基于3D深度卷积网络的人类行为识别的方法具体包括:
改进标准的3维卷积神经网络C3D,引入多级池化的方法,将任意大小的卷积特征图谱映射成固定维度的特征向量;
通过递归神经网络或者1维卷积神经网络对各个运动子状态进行关联性信息嵌入,并生成行为特征,用于行为分类;
根据不同模态特征,并采用多模态的学习方法进行多模态特征融合,得到需要的行为特征。
2.如权利要求1所述的基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述改进了标准的3维卷积神经网络C3D,通过引入多级池化的方法,能够将任意大小的卷积特征图谱映射成固定维度的特征向量,具体包括:
基于基本的3维卷积神经网络设计深度神经网络;深度神经网络包括用于提取视频片段的特征和将片段特征合成代表为行为的表征,并进行识别;
进行基于空域和时域的金字塔池化:在最后一层卷积层之后添加空域与时域的金字塔池化层,通过空域和时域的金字塔池化层将具有不同维度的卷积特征图谱映射成固定维度的特征向量。
3.如权利要求1所述的基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述通过递归神经网络或者1维卷积神经网络对各个运动子状态进行关联性信息嵌入,并生成行为特征,用于行为分类;具体包括:
行为完整性建模:在不同大小的输入视频片段的场景下,提取相应特征;将视频片段进行类比,并引入递归神经网络的变体长短期记忆模型LSTM和1维卷积嵌入CNN-E两种关联性学习。
4.如权利要求3所述的基于3D深度卷积网络的人类行为识别的方法,其特征在于,所述递归神经网络的变体长短期记忆模型LSTM对序列数据{X1,...,Xt...,XN}的计算中,通过LSTM的门机制,子动作状态Xt通过所述LSTM的门机制式转换为具有前后情景信息的状态ht;
具体包括:LSTM网络根据当前的运动状态和上一情景状态ht-1,通过logist回归得到输入门,遗忘门和输出门的控制信号;然后通过门信号计算新的情景状态ht;得到新的序列状态特征{h1,...,ht...,hN},通过最大池化的方式进行筛选;假设有一个一维卷积核,其窗口长度为C;在给定的序列动作特征{X1,...,Xt...,XN},1维卷积通过卷积的方式对各个特征进行相关性嵌入;表示为下式的计算方式;
vt=Wcnnxt:t+c-1+b;
通过卷积的方式,相关性嵌入本质上将相邻的动作状态进行加权求和;每个新的状态都是相邻相互独立运动子状态的叠加;最后,利用最大池化的方式对新的状态序列{v1,...,vt...,vN}进行过滤,生成行为的最终表征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都考拉悠然科技有限公司,未经成都考拉悠然科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710697809.8/1.html,转载请声明来源钻瓜专利网。