[发明专利]基于相干约束图长短时记忆网络的群体活动识别方法在审
| 申请号: | 201910778094.8 | 申请日: | 2019-08-22 |
| 公开(公告)号: | CN110580456A | 公开(公告)日: | 2019-12-17 |
| 发明(设计)人: | 舒祥波;张瑞鹏;唐金辉;严锐;宋砚 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 32203 南京理工大学专利中心 | 代理人: | 朱宝庆 |
| 地址: | 210094 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 群体活动 记忆网络 分类器 时间步 相干性 约束图 相干 聚合 注意力 全局上下文 注意力机制 单个运动 个体运动 向量 加权 推断 量化 时空 输出 学习 概率 | ||
1.一种基于相干约束图长短时记忆网络的群体活动识别方法,其特征在于,包括以下步骤:
步骤1,使用一个预先训练好的卷积神经网络CNN模型,提取跟踪的边界框中每个人的CNN特征;
步骤2,将所有人的CNN特征作为相干约束图长短时记忆网络CCG-LSTM的输入,共同学习所有人在时空上下文相干性约束下随时间的个体运动状态;
步骤3,利用全局上下文相干性的注意力机制,学习不同运动对应的注意力因子,通过注意力因子得到在全局上下文相干性约束下的每个个体的运动状态;
步骤4,在每个时间步中,相干约束图长短时记忆网络CCG-LSTM中的聚合长短时记忆网络LSTM将所有由不同注意力因子得到的单个个体的运动状态聚合为整个活动的隐藏表示;
步骤5,在每个时间步中将每个活动的隐藏表示输入到softmax分类器中;
步骤6,对每个时间步的softmax分类器的输出进行平均,推断出群体活动的类别。
2.根据权利要求1所述的方法,其特征在于,步骤1具体包括如下步骤:
对于每个视频片段,采用在Dlib库中的对象跟踪器在一定的时间步内跟踪每个人周围的一组边界框,对象跟踪器提取了每个边界框中每个人的CNN特征。
3.根据权利要求2所述的方法,其特征在于,步骤1中若某一帧中跟踪器未跟踪到人,则这帧图像中用一个全零矩阵弥补所缺失的对象人的特征。
4.根据权利要求1所述的方法,其特征在于,步骤2具体包括如下步骤:
步骤201,给定一个T帧的视频片段,其描述了含有V个人的群体活动,表示第v个人在第t帧的CNN特征,其中t∈{1,2,...,T},v∈{1,2,...,V};
步骤202,把群体活动的特征在空间域和时间域表示为图结构θt={St,Et}(t=1,2,...,T),其中Et是邻接矩阵;
步骤203,构造相干约束图长短时记忆网络CCG-LSTM,时间步t下CCG-LSTM中第v个节点的运动状态计算公式如下
其中
其中,对于第v个节点,为输入门,为遗忘门,为输出门,为邻接遗忘门,为时间置信门,为空间上下文置信门,φ(·)是一个多层感知机,表示第v个节点在时间步t-1的运动状态,表示第i个节点在时间步t-1的运动状态i属于第v个节点的邻接节点,表示第v个节点和第i在时间步t-1的关系权重,是第v个人的空间上下文状态,W*、U*、G*是权重矩阵,b*是偏置向量,*指的是下标为i、g、o、f和σ(·)表示sigmoid激活函数,表示tanh激活函数,⊙表示按元素乘,Φ(v)表示第v个节点的邻接节点,表示第v个节点的空间上下文记忆状态,Wp:Wx:Wq:是经Wp变换矩阵维度变换后的空间上下文状态,是经Wx变换矩阵维度变换后的特征,是运动状态投影到另一个维度空间的变量,参数ρ为控制函数输入范围,是指第v个节点的空间上下文记忆状态,是指第v个节点的相应邻节点的记忆状态。
5.根据权利要求1所述的方法,其特征在于,步骤3具体包括如下步骤:
步骤301,获取所有个体运动状态的平均运动状态来表示该时间步整体活动的隐藏表示,即
步骤302,使用一个注意力模型学习注意因子来衡量个体活动对整体活动的贡献其中γ是一个参数;
步骤303,通过注意力因子得到在全局上下文相干性约束下的第v个节点的运动状态
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910778094.8/1.html,转载请声明来源钻瓜专利网。





