[发明专利]基于Transformer的多视角3D姿态估计系统在审
| 申请号: | 202210370621.3 | 申请日: | 2022-04-10 |
| 公开(公告)号: | CN114821099A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 金城;张子墨;吴渊;程乐超 | 申请(专利权)人: | 复旦大学;之江实验室 |
| 主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/82;G06V10/766;G06V40/10;G06N3/04 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 王洁平 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 transformer 视角 姿态 估计 系统 | ||
本发明属于计算机视觉领域,具体涉及一种基于Transformer的多视角3D姿态估计系统。该系统按照处理流程先后顺序分为单视角时空Transformer特征提取模块和多视角Transformer特征交换模块两个部分。单视角时空Transformer特征提取模块对输入的多视角姿态序列提取不同视角的时空域特征信息;多视角Transformer特征交换模块,将不同视角的时空域特征信息两两交换,然后经过回归头输出最终的3D姿态估计结果。本发明能充分利用姿态序列间的时间上下文和空间关系,在不同视角间充分进行特征交换和传输,提高了3D姿态估计结果的准确度。
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于Transformer的多视角3D姿态估计系统。该系统在3D姿态估计任务上具有良好的表现。
背景技术
2D-3D姿态估计是3D姿态估计领域中的热门研究方向,是上层任务(例如行人再识别、人机交互、行为识别等)的基础。3D姿态估计根据人体关键点的2D坐标预测出人体各关键点的3D坐标。2D-3D姿态估计领域的主要问题是深度模糊,指的是由于2D骨架丢失了深度信息,姿态估计模型难以推测2D骨架中各关键点距离镜头的真实距离。目前有的工作使用视频来解决深度模糊问题,利用相邻帧从2D骨架序列中预测人体关键点的3D坐标,但这种隐式提取时空关系的方法准确率较低。有的工作使用多视角图像来显式地预测深度信息,但这种基于多视角的方法通常需要大量的计算资源来构建三维空间表示,很难实际应用和进一步优化。
发明内容
为解决现有技术存在的问题,本发明针对目前相关工作利用相邻视频帧来恢复深度信息的准确率较低,或是利用多视角图像而引入了额外计算量的问题,提出了一种基于时空Transformer模块的多视角3D姿态估计系统,其能以提高3D姿态估计任务的准确率和速度。
本发明提出的一种基于Transformer的多视角3D姿态估计系统按照处理流程先后顺序分为两个部分:单视角时空Transformer特征提取模块和多视角Transformer特征交换模块。整个系统的示意图如图1所示。
不同视角的2D骨架序列通过分别输入单视角时空Transformer特征提取模块来提取不同视角的时空域特征信息;多视角Transformer特征交换模块将不同视角的时空域特征信息两两交换,然后经过回归头输出最终的3D姿态估计结果。
下面介绍系统的具体内容:
一、单视角时空Transformer特征提取模块
单视角时空Transformer特征提取模块(Single-view Spatial and TemporalTransformer,S-ST2)包括姿态和位置嵌入层与嵌套Transformer块两部分,其网络结构如图2所示。
(1)姿态和位置嵌入层
姿态和位置嵌入层将关节和姿态分别嵌入到单词token和句子token,为嵌套Transformer块的先导部分。给定T帧的输入姿态序列每一帧Pi包含N个关节的2D坐标Ji,k。使用Rn来表示维度为n的特征空间,则有Ji,k∈R2,i∈1,2,...,T,k∈1,2,...,N;为了构造单词token和句子token分别使用线性层和作为姿态嵌入和位置嵌入,其中dw和ds分别是单词和句子的特征维度。其构造过程可以用公式(1)和(2)表示:
公式中的和分别是单词和句子的输入嵌入的权值和偏置。和分别表示第i个句子中的所有单词和所有的句子,∥表示逐通道级联,单词和句子的位置嵌入在空间和时间维度上显式地编码索引。
(2)嵌套Transformer块
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学;之江实验室,未经复旦大学;之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210370621.3/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法





