[发明专利]基于多模态自编码模型的单视角视频人体姿态恢复方法有效
| 申请号: | 201510305802.8 | 申请日: | 2015-06-04 |
| 公开(公告)号: | CN104899921B | 公开(公告)日: | 2017-12-22 |
| 发明(设计)人: | 俞俊;洪朝群 | 申请(专利权)人: | 杭州电子科技大学 |
| 主分类号: | G06T17/00 | 分类号: | G06T17/00;G06T7/33 |
| 代理公司: | 杭州君度专利代理事务所(特殊普通合伙)33240 | 代理人: | 黄前泽 |
| 地址: | 310018 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 多模态 编码 模型 视角 视频 人体 姿态 恢复 方法 | ||
1.基于多层感知器模型的三维姿态重建方法,其特征在于包括以下步骤:
步骤1、在提取视觉特征的过程中,针对图像的形状、颜色、边界多种视觉特征,采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征;
步骤2、在内在特征提取过程中,通过训练自编码模型分别获得图像与三维姿态的内在特征;
步骤3、基于步骤2获得图像与三维姿态的内在特征,采用无监督流形对齐技术,将图像与三维姿态的内在特征投影到一个共享的低维空间中,获得低维特征;
步骤4、在训练多层感知器网络的过程中,基于步骤3已获得的图像与三维姿态的低维特征,再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系;
步骤5、在训练多层感知器网络的过程中,利用步骤2中的自编码模型,步骤3中的无监督流形对齐模型以及步骤4中的神经网络模型,构建五层的全新感知器网络,以图像块作为输入,三维人体姿态作为输出,微调五层全新感知器网络的参数;
步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建,以图像的多种视觉特征作为输入,得到的输出即为对应三维姿态。
2.如权利要求1所述的基于多层感知器模型的三维姿态重建方法,其特征在于步骤1所述的通过基于超图学习的多模态低秩矩阵表示获得的图像的多种视觉特征,具体如下:
1-1.提取训练图像的多种模态特征X(1),X(2),...,X(m),其中m表示特征的类型和数量;
1-2.给定一个矩阵特征向量X(j),在该特征下的样本近邻矩阵通过求解以下目标函数获得:
其中,||·||*表示核函数,||·||2,1是指L21范数,参数λ>0则用于平衡两部分的影响,X(j)表示X的第j种特征;最优化得到的Q0自然的形成一个近邻矩阵;
1-3.针对多种模态特征,采用多任务低秩近邻矩阵求解,其目标函数是:
其中α>0是给定的参数,Q是将多特征下的矩阵Q1,Q2,...,Qm连接起来获得
1-4.依据得到的近邻矩阵Q,构建样本数据的流形空间,采用超图学习技术构建出流形矩阵L,并通过特征根矩阵分解得到图像数据的统一视觉特征表示x*。
3.如权利要求1所述的基于多层感知器模型的三维姿态重建方法,其特征在于步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征,具体如下:
2-1.提取训练库中的姿态数据y1,y2,...,yn和对应的图像的统一视觉特征
2-2.为了得到姿态数据的内在特征表示,采用自编码模型,假设编码层的参数为和而解码层的参数为和自编码模型以原始数据y1,y2,...,yn作为输入,通过训练使得输出的结果与原始的输入数据相同,其目标函数l3D如公式4所示:
其中为sigmoid函数;
2-3.利用Feedforward和Backpropagation算法对目标函数l3D进行优化,得到目标参数与并计算得到为yj的内在特征;
2-4.为了得到图像数据的内在特征表示,采用自编码模型,假设编码层的参数为和而解码层的参数为和自编码模型是以统一表示特征数据作为输入,其目标函数l2D如公式5所示:
其中,表示第j个输入数据,而表示第j个输入数据对应的输出数据;
2-5.利用Feedforward和Backpropagation算法对目标函数l2D进行优化,得到目标参数与并计算得到为xj的内在特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510305802.8/1.html,转载请声明来源钻瓜专利网。





