[发明专利]基于Transformer的多视角3D姿态估计系统在审
| 申请号: | 202210370621.3 | 申请日: | 2022-04-10 |
| 公开(公告)号: | CN114821099A | 公开(公告)日: | 2022-07-29 |
| 发明(设计)人: | 金城;张子墨;吴渊;程乐超 | 申请(专利权)人: | 复旦大学;之江实验室 |
| 主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/82;G06V10/766;G06V40/10;G06N3/04 |
| 代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 王洁平 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 transformer 视角 姿态 估计 系统 | ||
1.一种基于Transformer模块的多视角3D姿态估计系统,其特征在于,其包括若干
单视角时空Transformer特征提取模块和多视角Transformer特征交换模块两个部分;其中:
单视角时空Transformer特征提取模块,其对输入的多视角2D骨架序列分别提取不同视角的时空域特征信息;
多视角Transformer特征交换模块,将不同视角的时空域特征信息两两交换,然后经过回归头输出最终的多视角3D姿态估计结果。
2.根据权利要求1所述的多视角3D姿态估计系统,其特征在于,单视角时空Transformer特征提取模块包括姿态和位置嵌入层与嵌套Transformer块两部分,姿态和位置嵌入层将关节和姿态分别嵌入到单词token和句子token,嵌套Transformer块接收来自姿态和位置嵌入层的单词token和句子token从单词token和句子token中提取和传递特征;其中;
(1)姿态和位置嵌入层
给定T帧的输入姿态序列每一帧Pi包含N个关节的2D坐标Ji,k;使用Rn来表示维度为n的特征空间,则有Ji,k∈R2,i∈1,2,...,T,k∈1,2,...,N;为了构造单词token和句子token分别使用线性层和作为姿态嵌入和位置嵌入,其中dw和ds分别是单词和句子的特征维度;单词token和句子token的构造过程用公式(1)和(2)表示:
公式中的和分别是单词和句子的输入嵌入的权值和偏置;和分别表示第i个句子中的所有单词和所有的句子,∥表示逐通道级联;单词和句子的位置嵌入在空间和时间维度上显式地编码索引;
(2)嵌套Transformer块
获得单词token和句子token后,对这些token应用一系列的嵌套Transformer块来提取和传递特征;在每个嵌套Transformer块的外子块和内子块之间应用线性变换和逐元素累和,将空间关系传递给句子token,嵌套Transformer块的特征提取和传递过程用公式(3),(4)和(5)表示:
公式中的和分别表示线性变换的权值和偏置,l表示嵌套层号,∥表示逐通道级联。
3.根据权利要求2所述的多视角3D姿态估计系统,其特征在于,单视角时空Transformer特征提取模块中,在一系列嵌套Transformer块之后,使用回归头推理出的单视角3D姿态序列作为中间监督。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学;之江实验室,未经复旦大学;之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210370621.3/1.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法





