[发明专利]一种三维人体姿态估计方法、系统及存储介质在审
申请号: | 202210988995.1 | 申请日: | 2022-08-17 |
公开(公告)号: | CN115331259A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 侯利康;吴双;关庆阳;蒋雪琳 | 申请(专利权)人: | 西安外事学院 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/40;G06V10/40;G06V10/82;G06V10/80;G06N3/04;G06N3/08 |
代理公司: | 北京科家知识产权代理事务所(普通合伙) 11427 | 代理人: | 郭晶 |
地址: | 710077 陕西省西安市高新*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 三维 人体 姿态 估计 方法 系统 存储 介质 | ||
1.一种三维人体姿态估计方法,其特征在于,所述方法包括:
S1:对human3.6m人体姿态估计数据中视频的每一帧的多个二维关键点坐标序列进行向量编码和位置编码,得到编码后的输入;
S2:利用编码后的输入,使用多头注意力机制提取每一帧中多个关键点的相关特征,得出关键点之间的空间关系特征;
S3:将空间关系特征输入到扩张卷积网络中提取时间特征,并将空间关系特征与时间特征进行融合;最终得到人体关键点的三维坐标,即实现了三维人体姿态估计。
2.根据权利要求1所述的一种三维人体姿态估计方法,其特征在于,在步骤S1之前,所述方法还包括:获取human3.6m人体姿态估计数据。
3.根据权利要求2所述的一种三维人体姿态估计方法,其特征在于,所述步骤S1具体包括:
对输入的每一帧的17个二维关键点坐标(x1,y1)...(x17,y17)进行向量编码,通过线性投影矩阵E∈RJ*C将二维的坐标映射到更高的维度C,同时添加位置编码ESP∈RJ*C记录每一个关键点在序列中的位置信息,得到编码后的输入X0,过程如公式(1)所示;
X0=[(x1,y1)E,...(x17,y17)E]+Esp (1)。
4.根据权利要求1所述的一种三维人体姿态估计方法,其特征在于,所述步骤S2,具体包括:
首先将编码后的输入X0进行层归一化后,线性映射到查询矩阵Q、键矩阵K和值矩阵V上,作为多头注意力的输入:
Q=X0WQ,K=X0WK,V=X0WV (2)
注意力计算各个关键点之间关系的得分高低计算公式如下:
多头注意力的形式使用一个线性映射将h个头的注意力分数拼接体现:
H=Concat(h1,...h8)Wh (4)
最后,使用一个layer norm层进行归一化,得到关键点之间的空间关系特征。
5.根据权利要求1所述的一种三维人体姿态估计方法,其特征在于,将空间关系特征输入到扩张卷积网络中提取视频中不同帧之间的时间信息特征,得到不同时间帧的坐标联系。
6.根据权利要求5所述的一种三维人体姿态估计方法,其特征在于,基于不同时间帧的坐标联系,融合关键点之间的空间关系特征,得到单帧的17个关键点的三维坐标。
7.根据权利要求6所述的一种三维人体姿态估计方法,其特征在于,所述单帧的17个关键点的三维坐标,即为最终估计出的三维关键点坐标。
8.一种三维人体姿态估计系统,其特征在于,所述系统包括:
提取关节点间信息模块,用于对human3.6m人体姿态估计数中视频的每一帧的多个二维关键点坐标序列进行向量编码和位置编码,得到编码后的输入;利用编码后的输入,使用多头注意力机制提取每一帧中多个关键点的相关特征,得出关键点之间的空间关系特征;
时间信息提取模块,用于将空间关系特征输入到扩张卷积网络中提取时间特征,并将空间关系特征与时间特征进行融合;最终得到人体关键点的三维坐标,即实现了三维人体姿态估计。
9.根据权利要求1所述的一种三维人体姿态估计系统,其特征在于,所述系统还包括:
获取模块,用于获取human3.6m人体姿态估计数据。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现权利要求1-7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安外事学院,未经西安外事学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210988995.1/1.html,转载请声明来源钻瓜专利网。