[发明专利]基于动态时空卷积的动态手势识别方法在审
申请号: | 202310230599.7 | 申请日: | 2023-03-11 |
公开(公告)号: | CN116563938A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 常绍鹏;黄学雨;刘耀坤;向军臣 | 申请(专利权)人: | 江西理工大学;常绍鹏 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/26;G06V20/70;G06V10/774;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 341099 江*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 时空 卷积 手势 识别 方法 | ||
1.一种动态手势识别模型的构建方法,其特征在于,包括以下步骤:
S1:获取动态手势视频数据集收集在不同背景下不同人的不同手势的视频;
S2:数据集帧采样对 S1中获取的数据集进行预处理,首先将视频处理为一帧一帧的图像,然后通过裁剪将图像调整为固定大小,接下来对数据集进行标注,需要标注手势动作的开始帧、结束帧和所属手势类别;
S3:数据集划分将数据集按 3:1:1的比例划分为训练集、验证集、测试集;
S4:构建具有时空建模能力的动态时空建模模块构建具有时空建模能力的模块,首先先考虑长期时序信息,由构建长期时序聚合模块 LAM,使用全局池化压缩特征图,然后使用一维卷积提取全局特征信息,将提取的全局特征信息和原始特征图进行累加,使用两个全连接层对全局信息进行动态编码,使用 softmax归一化生成卷积权重,使用生成的卷积权重进行卷积聚合长期时序信息;然后考虑运动信息,构建运动激励模块 ME,使用特征图之间的差模拟运动信息,然后使用 sigmoid归一化生成激励权重,使用激励权重和原特征图相乘获得经过运动激励后特征图;接下来将 LAM模块和 ME组合起来构成具有时空建模能力的 LAMME模块;
S5:构建基于动态时空卷积的动态手势识别模型采用 Resnet50网络作为原始网络,Resent50网络包括 1个预处理层、4个 Block、1个平均池化层、1个全连接层和 1个softmax 层,将 S4中构建的 LAMME模块插入到每个 Block的 1×1卷积后,得到 LAMME-Net网络模型;
S6:训练基于动态时空卷积的动态手势识别模型将 S2和 S3中经过预处理后的训练集和验证集输入到 S5中构建的 LAMME-Net网络模型中,首先使用 ImageNet预训练权重进行参数初始化,将输入的图像序列进行下采样,每个视频片段取 T 帧作为输入,将输入的图像分辨率调整为 224×224,网络的最终的输入为N×T×3×224×224,其中 N为训练批次大小,T为采样帧数;对 LAMME-Net网络模型进行训练,使用学习率多级下降策略提高训练得到的模型性能,保存验证集准确率最高的模型为最终的测试模型;
S7:动态手势识别,使用 S6中得到的模型进行动态手势识别,可分为离线动态手势识别和实时动态手势识别。其中离线动态手势识别将视频抽取为图像序列,然后输入到动态手势识别网络中,最后输出识别结果;实时手势识别获取动态手势视频流,每隔 S帧将图像帧存入缓冲区,然后将缓冲区内的图像序列输入到动态手势识别模型中,最后输出识别结果。
2.如权利要求 1所示的一种动态手势识别网络模型的搭建方法,其特征在于:所述长期时序建模模块 LAM包括全局时序信息累加和全局时序信息动态聚合;所述全局时序累加,首先使用全局平均池化将输入特征图压缩,然后使用一维卷积抽取全局时间信息,最后包含全局时序信息的特征图和原特征图累加得到包含全局时序信息的特征图;所述全局时序信息动态聚合,首先使用全局平均池化将特征图压缩,然后使用两个全连接层对全局时序信息编码后使用 softmax归一化得到动态卷积权重,最后使用 2D卷积的方式在经过全局时序累加后的特征图上聚合全局时序信息。
3.如权利要求 1所示的一种动态手势识别网络模型的搭建方法,其特征在于所述运动信息激励,首先使用 1×1的 2维卷积压缩通道数,然后使用相邻帧之间的特征图相减来模拟运动信息,然后使用 1×1的 2维卷积还原通道数,接下来使用 sigmoid函数计算运动敏感权重,然后使用得到的运动敏感权重乘原输入特征图得到经过运动激励后的特征图;所述长期时序建模模块和运动激励模块的组合,是将长期时序建模模块和运动激励模块串联得到的组合模块,输入的特征图经过组合模块后特征图就包含了长期时序信息和运动信息。
4.如权利要求 1所述的一种动态手势识别模型的构建方法,其特征在于使用全局平均池化和一维卷积累加增强长期时序信息。
5.如权利要求 1所述的一种动态手势识别模型的构建方法,其特征在于使用全连接层对长期时序信息编码后使用 softmax归一化生成动态卷积权重,然后卷积的方式聚合长期时序特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西理工大学;常绍鹏,未经江西理工大学;常绍鹏许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310230599.7/1.html,转载请声明来源钻瓜专利网。