[发明专利]视频生成方法、装置、计算机设备及存储介质在审

申请号：	202210816012.6	申请日：	2022-07-12
公开（公告）号：	CN115100325A	公开（公告）日：	2022-09-23
发明（设计）人：	李志韬;王健宗;程宁	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06T13/20	分类号：	G06T13/20;G06T13/40;G06V40/16;G10L21/10;G10L25/03
代理公司：	深圳众鼎专利商标代理事务所(普通合伙) 44325	代理人：	姚章国
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频生成方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，本发明公开了一种视频生成方法、装置、计算机设备及存储介质。该方法通过对所获取目标用户对应的待处理人脸图像和待处理音频进行特征提取，得到对应的目标人脸关键点和目标音频特征，以根据目标音频特征进行预测，对目标人脸关键点进行调整；通过采用目标姿态预测模型，对目标音频特征和目标人脸关键点进行姿态预测，以获取用于姿态调整的目标人物姿态偏移向量；根据目标人物姿态偏移向量调整目标人脸关键点后，生成拟人化程度更高的目标用户对应的目标视频，通过利用目标姿态预测模型，对目标音频特征进行姿态预测，提高所生成用户视频的拟人化程度。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种视频生成方法、装置、计算机设备及存储介质。

背景技术

人脸动画合成视频技术对于电影制作，虚拟人合成以及模拟现实等方面起着至关重要的作用，虽然脸部合成技术已经取得了许多突破性进展，但依然存在不少技术难点需要解决，例如唇音同步的姿态控制目前依然涉及大量人工参与，这是由于脸部姿态控制依赖于高维流形，因而我们很难找到一个函数对语音以及嘴唇的姿态进行一一映射。

目前，语音驱动人脸合成通常根据每一帧裁剪后的唇部姿态的图片进行合成，或是采用GANs和CNN编码-解码器的方式合成一整张图片，通过将语音与唇音进行同步，从而生成对应的用户视频。但由于不同用户风格特点的不同，他们说话时候的头部和面部的姿态也会发生变化，现有技术中，仅对部分面部姿态进行改变，所生成用户视频的表现力略有不足，导致视频生成存在拟人化程度较低的问题。

发明内容

本发明实施例提供一种视频生成方法、装置、计算机设备及存储介质，解决现有视频生成存在拟人化程度较低的问题。

本发明实施例提供了一种视频生成方法，包括：

获取目标用户对应的待处理人脸图像和待处理音频；

对所述待处理人脸图像进行特征提取，获取目标人脸关键点；

对所述待处理音频进行特征提取，获取目标音频特征；

采用目标姿态预测模型，对所述目标音频特征和所述目标人脸关键点进行姿态预测，获取目标人物姿态偏移向量；

根据所述目标人物姿态偏移向量，对所述目标人脸关键点进行姿态控制，生成所述目标用户对应的目标视频。

本发明实施例还提供了一种视频生成装置，包括：

目标用户确认模块，获取目标用户对应的待处理人脸图像和待处理音频；

目标人脸关键点获取模块，对所述待处理人脸图像进行特征提取，获取目标人脸关键点；

目标音频特征获取模块，对所述待处理音频进行特征提取，获取目标音频特征；