[发明专利]一种三维人体姿态估计方法、系统及存储介质在审
申请号: | 202210988995.1 | 申请日: | 2022-08-17 |
公开(公告)号: | CN115331259A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 侯利康;吴双;关庆阳;蒋雪琳 | 申请(专利权)人: | 西安外事学院 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/40;G06V10/40;G06V10/82;G06V10/80;G06N3/04;G06N3/08 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 郭晶 |
地址: | 710077 陕西省西安市高新*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 三维 人体 姿态 估计 方法 系统 存储 介质 | ||
本发明公开了一种三维人体姿态估计方法、系统及存储介质,获取human3.6m人体姿态估计数据集,将数据集划分为训练集和验证集两部分。获得输入,即三维关键点坐标序列。这里在二维人体姿态估计网络CPN的结果基础上,实现三维人体姿态估计。第一步:对视频输入的每一帧17个关键点的二维坐标进行向量和位置编码,进行维度的提升,利于提取特征。第二步:使用transformer结构提取每一帧中17个关键点的相关特征,得出关键点之间的空间关系特征。第四步,将空间关系特征输入到扩张卷积模块,扩大感受野范围,提取时间特征。将空间与时间特征进行融合。最终得到单帧的17个关键点的三维坐标。
技术领域
本发明属于人体姿态估计领域,具体涉及一种三维人体姿态估计方法、系统及存储介质。
背景技术
人体姿态估计是指通过机器学习和图像处理等方法检测和识别出图像中人体的关节点,并定位各个关节点的位置。该技术可应用于动作捕捉、人机交互、异常行为检测、影视特效制作、动作迁移、虚拟角色驱动等,同时该技术也可以辅助行为识别、行为理解等技术。之前的姿态估计方法中,往往采用卷积神经网络或者循环神经网络来进行人体姿态的估计,但是普通卷积神经网络总是激活小范围的数据以供观察,而循环神经网络局限于简单的序列相关性,且下一状态取决于上一状态结果,不能并行处理。所以本发明提供一种可以应用于视频中的基于扩展卷积和注意力机制的三维人体姿态估计方法。
现有的基于深度学习的三维人体姿态估计方法大致可以分为三类:基于直接回归的三维人体姿态估计、基于2D信息的三维人体姿态估计以及基于混合方法的三维人体姿态估计。基于直接回归的三维人体姿态估计存在贡献分配问题,基于混合方法的网络又过于复杂,所以我们选择基于二维信息的三维人体姿态估计方法。以二维骨架序列为输入,经过三维人体姿态估计网络,输出人体关键点的三维坐标,基本过程如图1所示。
发明内容
本发明的目的在于,目的在于提供了一种三维人体姿态估计方法、系统及存储介质,
为了解决技术问题,本发明的技术方案是:
一种三维人体姿态估计方法,所述方法包括:
S1:对human3.6m人体姿态估计数据中视频的每一帧的多个二维关键点坐标序列进行向量编码和位置编码,得到编码后的输入;
S2:利用编码后的输入,使用多头注意力机制提取每一帧中多个关键点的相关特征,得出关键点之间的空间关系特征;
S3:将空间关系特征输入到扩张卷积网络中提取时间特征,并将空间关系特征与时间特征进行融合;最终得到人体关键点的三维坐标,即实现了三维人体姿态估计。
进一步,在步骤S1之前,所述方法还包括:获取human3.6m人体姿态估计数据;
进一步,所述步骤S1具体包括:
对输入的每一帧的17个二维关键点坐标(x1,y1)...(x17,y17)进行向量编码,通过线性投影矩阵E∈RJ*C将二维的坐标映射到更高的维度C,同时添加位置编码ESP∈RJ*C记录每一个关键点在序列中的位置信息,得到编码后的输入X0,过程如公式(1)所示;
X0=[(x1,y1)E,...(x17,y17)E]+Esp (1)。
进一步,所述步骤S2,具体包括:
首先将编码后的输入X0进行层归一化后,线性映射到查询矩阵Q、键矩阵K和值矩阵V上,作为多头注意力的输入:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安外事学院,未经西安外事学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210988995.1/2.html,转载请声明来源钻瓜专利网。