[发明专利]基于特征融合与样本增强的三维人体姿态估计方法有效
| 申请号: | 202010158977.1 | 申请日: | 2020-03-09 |
| 公开(公告)号: | CN111428586B | 公开(公告)日: | 2023-05-16 |
| 发明(设计)人: | 卫志华;崔啸萱;赵才荣;臧笛 | 申请(专利权)人: | 同济大学 |
| 主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V40/10;G06V20/64;G06V10/774;G06V10/80;G06V10/82;G06N3/0464;G06N3/08 |
| 代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
| 地址: | 200092 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 特征 融合 样本 增强 三维 人体 姿态 估计 方法 | ||
1.一种基于特征融合与样本增强的三维人体姿态估计方法,其特征在于,包括三个步骤:
步骤一:部位分类与像素回归
采用基于候选区域的全卷积网络,对图片中人体进行身体部位分类与像素点三维坐标回归;
步骤二:辅助网络样本增强
采用辅助网络样本增强算法,对没有初始标注的样本位置进行信号补充;具体步骤如下:
2.1利用原始训练集样本训练一个辅助增强网络,使其回归学习到已标注像素点与生成的预测坐标之间的关系;辅助网络采用全卷积结构进行训练和预测,全卷积网络构造流程如下:
步骤2.1.1将传统卷积神经网络的最后一层全连接层改为全卷积层,即全卷积化;
步骤2.1.2采用反卷积层对最后一个卷积层的特征图进行上采样,将卷积层输出的特征图还原成原始图片大小;
反卷积也称为分数步长卷积或者转置卷积,在卷积神经网络中常用于表示一种反向卷积上采样方式;假设常规的卷积操作模式下的滑动步长为S,图片大小为N1xN1,卷积核大小为N2xN2,则卷积后图像的大小为:
(N1-N2)/S+1x(N1-N2)/S+1(4)
为了要让经过卷积的结果回到卷积前的模样,进行反卷积操作,在反向卷积的基础上加上padding操作,输出特征图还原成原始图片大小;
步骤2.1.3利用上一步骤2.1.2所述的上采样操作对最后一层的特征图进行上采样得到原图大小的分割,由于最后一层的特征图太小,会损失很多细节;采用跳级结构对前几层卷积层也同样进行反卷积,并将有更富的全局信息的最后一层预测和有更多的局部细节的更浅层的预测结合起来,将各层反卷积后的特征图进行结合,并利用插值补充细节;最后得到的输出为上采样到原图的大小的结果,从而完成对整个图像的像素级别预测;
2.2对未标记样本进行一系列不同的几何变换后,输入训练好的AE-Net网络进行预测推断;
2.3将不同变换生成的预测结果通过取平均值的方式进行融合,对每个未标注像素点生成预测的坐标,并部署在原大小的图像域上,作为增强样本的新标注;同时,在结果中剔除背景区域的预测,只保留对标记为人体的区域的预测;
2.4将原始样本和增强样本一同送入3D原模型中进行训练,即可实现样本的增强和补充;
步骤三:特征融合
将3D模型与现有2D姿态识别模型进行特征融合,从全局姿态的角度与局部回归坐标发挥优势互补性。
2.如权利要求1所述的基于特征融合与样本增强的三维人体姿态估计方法,其特征在于,
步骤一:部位分类与像素回归,具体为:
1.1首先将人体按照三维模型划分为若干个不同的身体部位;
1.2采用数字图像领域中的参数化方法,对每个身体部位块进行二维展开和三维坐标参数化标注;
1.3采用改进的目标分割区域建议神经网络对人体各身体部位进行关键点检测和语义级别的像素分割。
3.如权利要求2所述的基于特征融合与样本增强的三维人体姿态估计方法,其特征在于,
步骤一:
1.1采用人体样本数据集,数据集中图片包含场景复杂、不同形态、不同尺寸的目标人体;其中划分训练集和测试集
1.2将人体按照三维模型划分为若干个不同的身体部位,并采用数字图像领域中的参数化方法,对每个部位块进行二维展开和三维坐标参数化标注,每个三角网格和它的uv平面上对应仿射变换关系;对于一个在x,y,z坐标系上的三维模型,将曲面的x、z坐标归一化到一个半径为r的圆柱面上;设3D模型其中m为自然数,其中xj∈R3是三维空间网格的定点位置;令U∈R2×m,则映射函数Ψ具有如下形式:
Ψ(xj)→uj (1)
Ψ-1(uj)→xj (2)
uj∈U;
其中:参数h与v对照于上述uv平面中的水平方向与垂直方向;
1.3使用深度学习方法对标注后的样本集进行训练,采用改进的目标分割区域建议神经网络对人体各部位进行关键点检测和语义级别的像素分割;
首先,图像由经典卷积神经网络处理生成特征图,得到特征图后经过候选框生成网络层,在RPN阶段分别经过3X3和1X1的卷积得到若干个包含分数和坐标的结果,再结合预先定义的边框,经过回归修正等后处理得到候选框的精确坐标和大小;RPN网络的代价函数定义如下:
其中,i表示第i个小窗口候选框,pi是第i个小窗口候选框为目标的预测概率,当候选框是正例等于1,反例等于0;ti是一个四维向量,表示预测边界框的参数化坐标,表示和正例小窗口相关联的真值边界框;Lcls和Lreg分别表示分类和回归的损失函数,Ncls、Nreg和λ为平衡参数;
接着,将图像送入两个通路:一个用于生成回归框和预测类别;另一路在生成掩码的基础上,使用回归系统来精确定位该身体部位内每一个像素的uv坐标;对于某一像素点,先分类并计算该像素所在具有最高后验概率的身体部位,再使用回归器将该点进行特定部位下的uv坐标参数化;在训练过程中,身体部位的分类使用交叉熵损失,坐标回归使用平滑L1损失;当像素在特定身体部位范围内的时候,其回归部分的loss才会作为被算入;平滑L1损失函数的定义公式如下:
经过上述网络之后,实现人体各部位的关键点坐标预测和语义级别的像素分割;
步骤三:特征融合
将3D原模型与2D姿态识别模型两个神经网络得到的特征进行融合,将不同视角下的多尺度特征进行整合,从全局姿态的角度与局部回归坐标发挥优势互补性;算法步骤如下:
3.1首先,将原始模型与二维姿态识别模型进行连接,实现多任务交叉并行网络结构;
3.2接着,从RoIAlign层输出,后面分为两个分支,分别进行姿态识别关键点检测和原始的像素分类回归,得到前者的关键点检测任务特征图及后者的分类和坐标任务的特征图输出,对应地得到两路数据:第一路数据为2D识别中间输出,第二路数据为3D识别中间输出;
3.3将步骤3.2中两路分支的输出,和该两路分支最后一层的特征图即第三路和第四路数据,分别通过对应1×1的卷积核组成的卷积层,使四路数据转换成同样的维度,且该卷积层不改变数据尺寸,只改变数据深度;
3.4最后,将步骤3.3中四路数据转换而来的不同尺度、但维度相同的特征图进行元素级别的特征融合相加,之后送入全卷积层再次进行卷积,计算loss并得到最终优化后的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010158977.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水稻苗床旋耕开沟起垄整平镇压复式作业机
- 下一篇:一种口鼻眼面罩





