[发明专利]基于人像的视频生成方法及设备、存储介质在审
| 申请号: | 201811635970.3 | 申请日: | 2018-12-29 | 
| 公开(公告)号: | CN111383307A | 公开(公告)日: | 2020-07-07 | 
| 发明(设计)人: | 王慧;朱频频 | 申请(专利权)人: | 上海智臻智能网络科技股份有限公司 | 
| 主分类号: | G06T13/40 | 分类号: | G06T13/40 | 
| 代理公司: | 上海知锦知识产权代理事务所(特殊普通合伙) 31327 | 代理人: | 潘彦君;李丽 | 
| 地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 基于 人像 视频 生成 方法 设备 存储 介质 | ||
1.一种基于人像的视频生成方法,其特征在于,包括:
获取目标人脸静态图像;
获取人像表达控制数据;
将所述目标人脸静态图像和所述人像表达控制数据输入训练完成的生成对抗网络模型中分别进行相应的特征提取处理及进行特征融合,生成图像序列,所述图像序列中人像的动作姿态与所述人像表达控制数据的表达特征匹配;输出所生成的图像序列。
2.根据权利要求1所述的基于人像的视频生成方法,其特征在于,所述人像表达控制数据包括以下至少一种:
情感数据;
语音数据。
3.根据权利要求2所述的基于人像的视频生成方法,其特征在于,所述获取语音数据包括以下至少一种:
直接获取语音数据;
获取文本数据,将所述文本数据转换为语音数据。
4.根据权利要求3所述的基于人像的视频生成方法,其特征在于,所述获取情感数据包括以下至少一种:
获取用户输入的情感标签作为所述情感数据;
识别所述语音数据或所述文本数据的情感特征,将识别出的情感特征序列作为所述情感数据;
识别所述目标人脸静态图像的表情特征作为所述情感数据。
5.根据权利要求4所述的基于人像的视频生成方法,其特征在于,所述生成对抗网络模型包括:
人像生成器,适于对所述目标人脸静态图像和所述人像表达控制数据分别进行相应的特征提取处理及进行特征融合,生成所述图像序列。
6.根据权利要求5所述的基于人像的视频生成方法,其特征在于,所述人像表达控制数据包括情感数据,所述将所述目标人脸静态图像和所述人像表达控制数据输入训练完成的生成对抗网络模型中进行特征提取处理,获得图像特征集和人像表达特征序列,包括:
将所述目标人脸静态图像进行编码,提取得到图像特征集;
将所述情感数据输入预设的人像表达特征提取模型,提取得到人像情感表达特征序列。
7.根据权利要求6所述的基于人像的视频生成方法,其特征在于,所述将所述目标人脸静态图像进行编码,提取所述图像特征,包括:
采用预设的卷积神经网络对所述目标人脸静态图像进行编码,提取所述图像特征集。
8.根据权利要求6所述的基于人像的视频生成方法,其特征在于,所述将所述情感数据输入预设的人像表达特征提取模型,提取得到所述人像情感表达特征序列,包括以下至少一种:
将所述情感数据输入预设的表情特征提取模型,提取得到人像面部表情特征序列;
将所述情感数据输入预设的姿态特征提取模型,提取得到人像姿态特征序列。
9.根据权利要求8所述的基于人像的视频生成方法,其特征在于,在进行特征融合前,还包括:
对所述人像面部表情特征序列按照预设的规则进行时序变换。
10.根据权利要求9所述的基于人像的视频生成方法,其特征在于,所述对所述人像面部表情特征序列按照预设的规则进行时序变换包括以下其中一种:对所述人像面部表情特征按照所述语音数据中句子间隔进行时序变换;
对所述人像面部表情特征按照预设的时间段进行时序变换。
11.根据权利要求6所述的基于人像的视频生成方法,其特征在于,所述人像表达控制数据包括:语音数据;
所述将所述目标人脸静态图像和所述人像表达控制数据输入训练完成的生成对抗网络模型中进行特征提取处理,获得图像特征集和人像表达特征序列,包括:将所述语音数据输入所述训练完成的生成对抗网络模型中进行音频特征提取处理,提取得到音频特征序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海智臻智能网络科技股份有限公司,未经上海智臻智能网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811635970.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:量子点发光二极管的制备方法
 - 下一篇:半导体结构及其形成方法
 





