[发明专利]一种基于自监督学习与生成对抗机制的人脸表情迁移方法有效
申请号: | 202010020215.5 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111243066B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 刘勇;潘雨粟;曾仙芳 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06T13/40 | 分类号: | G06T13/40;G06V40/16;G06V10/80;G06V10/774;G06K9/62 |
代理公司: | 浙江翔隆专利事务所(普通合伙) 33206 | 代理人: | 叶卫强 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 生成 对抗 机制 表情 迁移 方法 | ||
1.一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,包括下列步骤:
S1、人脸身份与姿态自监督解耦网络设计步骤,致力于通过网络学习到能代表这两者的相互独立的特征;一个多帧的人脸身份自编码器F来提取人脸身份,融合多张人脸图像生成对应人脸的身份图像同时,使用了一个多尺度的人脸姿态自编码器P来提取每一帧人脸的姿态特征并跟据与姿态信息重建输入图像,通过重建任务激励两个自编码器解耦信息;
S2、生成对抗网络设计步骤,致力于生成高质量的既保留源图像身份又保持目标视频姿态与表情的人脸图像;一个支持条件输入的生成器G以人脸身份自编码器F生成的身份图像为输入,以人脸姿态自编码器提取到的姿态特征为条件,生成人脸表情迁移图像一个多尺度的判别器D则通过判别生成图像与真实图像,激励支持条件输入的生成器G生成逼真的人脸图像;
S3、模型训练步骤,利用S1与S2中得到的人脸身份与姿态自监督解耦网络与生成对抗网络,以大规模、多模态的图像为输入,通过训练策略优化人脸身份自编码器F、人脸姿态自编码器P、支持条件输入的生成器G与多尺度的判别器D共4个网络,对输入图像进行重建,并将重建结果与输入图像进行判别,对网络模型进行优化与约束;
S4、整体框架预测步骤,给定一张提供人脸身份信息的源图像或视频与一张提供人脸姿态信息的目标图像或视频,由人脸身份自编码器F提取身份图像人脸姿态自编码器P提取目标人脸的姿态特征支持条件输入的生成器G分别以这两者为输入与条件,生成带有目标表情的人脸表情迁移图像
所述的人脸身份自编码器F,其接受多帧图像序列作为输入,生成对应每一帧的不完整的身份图像候选而后通过将其融合,得到具有完整人脸的身份图像其中,i表示输入视频序列序号,nview表示一次输入网络进行融合的图像数量,W与H分别代表了输入图像的宽度与高度;
人脸身份自编码器F接受多帧图像序列作为输入,并对每一帧都预测了一个位移场T∈RH×W×2与一个注意力响应图A∈RH×W×1;
得到位移场T后,将输入图像中的所有像素Iu,v按照位移场T中的运动向量Tu,v的指示进行位移,得到形变图像
自编码器预测得到的注意力响应图A则用于表示在后续融合过程中的相对重要性,与形变图像点乘后得到该帧对应的身份图像候选保证之后融合过程的顺利进行;
人脸身份自编码器F将输入每一帧对应的身份图像候选融合,成为多帧融合的完整的身份图像
2.根据权利要求1所述的一种基于自监督学习与生成对抗机制的人脸表情迁移方法,其特征在于,所述的人脸姿态自编码器P,其任务是以一帧图像作为输入,学习如何将从人脸身份自编码器得到的身份图像上的像素通过位移与形变的手段,重建输入图像;与此同时,其还需要学习到有意义的姿态特征用于后续的生成对抗网络中;
该自编码器P先将输入图像进行编码,得到姿态特征而后进行解码;其最后三个网络层分别输出一个位移场T-1与两个残差响应图RL与RH;位移场T-1内含有姿态信息,用以将身份图像还原为带有姿态的图像;此处生成的位移场空间尺寸为H/4×W/4;两个残差响应图通过残差的方式提升图像的分辨率,并增加细节信息;
身份图像缩放到H/4×W/4后,与位移场T-1进行采样结合,得到低分辨率H/4×W/4的重建图像;低分辨率的重建图像经过差值扩大一倍后,与残差响应图RL相加,得到H/2×W/2分辨率的图像;该图像经过差值扩大一倍后,再与残差响应图RH进行相加,最终得到全尺寸H×W的重建图像
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010020215.5/1.html,转载请声明来源钻瓜专利网。