[发明专利]一种基于双路3DCNN模型的哑语动作识别方法有效
申请号: | 201910333068.4 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110096987B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 王斌;杨晓春;赵征 | 申请(专利权)人: | 东北大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/32;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 李运萍 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于双路3DCNN模型的哑语动作识别方法,涉及计算机视觉技术领域。本发明步骤如下:步骤1:采集视频数据集;步骤2:对视频数据集进行预处理;步骤3:建立提取手势局部信息的3D卷积神经网络模型,输出手部的特征向量的集合;步骤4:建立提取整体全局信息的3D卷积神经网络模型,提取整体全局特征向量的集合;步骤5:建立双路的3D卷积神经网络模型,得出具有局部手势信息和全局整体信息的特征图谱;步骤6:得到词嵌入特征向量,将特征图谱和特征向量输入生成哑语句子的长短期记忆网络,经过迭代训练得到与哑语动作相对应的连贯句子。本方法能正确捕捉到人体的手势和肢体信息得到连贯的句子,客服了只能识别单一词汇的问题。 | ||
搜索关键词: | 一种 基于 dcnn 模型 哑语 动作 识别 方法 | ||
【主权项】:
1.一种基于双路3DCNN模型的哑语动作识别方法,其特征在于:包括如下步骤:步骤1:采集视频数据集,视频数据集包括训练集和测试集,所述训练集中的视频数据是人为标定了手部边框坐标信息的视频数据;利用深度摄像头对视频数据进行采集,采集的数据要求能够清晰的显示出手的手掌和手腕关节点的坐标信息,同时还要对肢体及面部表情进行关键点的标定工作;每只手都需要采集5×4个关节以及手心共计21组数据,肢体动作需要采集14个关键点,总共标定56个关键点信息;步骤2:对视频数据集进行预处理,包括对视频数据的填充、剪裁、缩放、数据集的增广操作;步骤3:根据训练集中的视频数据建立提取手势局部信息的3D卷积神经网络模型,将测试集中的待识别视频数据F输入到提取手势局部信息的3D卷积神经网络模型中,输出手部的特征向量的集合U;所述3D为在二维图像上引入时间维度后组成的3D数据;步骤4:根据训练集中的视频数据建立提取整体全局信息的3D卷积神经网络模型,将待识别视频数据F作为提取整体全局信息的3D卷积神经网络模型的输入,提取出视频数据F的整体全局特征向量的集合U′;步骤5:将步骤3和步骤4得出的提取手势局部信息的3D卷积神经网络模型和提取整体全局信息的3D卷积神经网络模型按照视频数据的时间顺序并行执行,形成双路的3D卷积神经网络模型,将该模型输出的两个特征图谱沿着图谱的维度进行拼接,最终形成了既具有局部手势信息又具有全局整体信息的特征图谱;步骤6:对视频中的哑语动作所对应的文本信息进行词嵌入向量编码,得到词嵌入特征向量,将一个单词转换成固定长度的向量表示,通过词嵌入用特征向量来代表特定的自然语言;将步骤5所得到的特征图谱和词嵌入特征向量作为生成哑语句子的长短期记忆网络的输入,经过迭代训练得到与哑语动作相对应的连贯句子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910333068.4/,转载请声明来源钻瓜专利网。