[发明专利]一种实时音频驱动人脸生成方法、装置及服务器有效

专利信息
申请号: 202111082204.0 申请日: 2021-09-15
公开(公告)号: CN113793408B 公开(公告)日: 2023-05-30
发明(设计)人: 司马华鹏;屈奇勋;范宏伟;李佳斌 申请(专利权)人: 宿迁硅基智能科技有限公司
主分类号: G06T13/20 分类号: G06T13/20;G06T13/40;G06V40/16;G10L25/24;G06N3/0464;G06N3/084;G06N3/0455
代理公司: 北京弘权知识产权代理有限公司 11363 代理人: 逯长明;许伟群
地址: 223808 江苏省宿*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 实时 音频 驱动 生成 方法 装置 服务器
【说明书】:

一种实时音频驱动人脸生成方法、装置及服务器,方法包括:获取训练视频的图像信息和与训练视频同步的音频信息;对图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;对音频信息进行特征提取,得到每帧图像的音频特征;构建神经辐射场模型,根据每帧图像的人脸姿态特征、像素位置特征和所述音频特征训练神经辐射场模型,以获取目标神经辐射场模型;输入与目标视频同步的音频信息至目标神经辐射场模型中进行图像渲染,以生成当前视角及音频条件下的目标图像。本申请通过使用包括编码器和解码器结构的卷积神经网络作为神经辐射场模型,以及将图像像素位置特征作为输入训练神经辐射场,从而达到实时语音驱动人脸视频的生成。

技术领域

本申请涉及人脸图像处理技术领域,尤其涉及一种实时音频驱动人脸生成方法、装 置及服务器。

背景技术

随着近年来图像处理领域技术的发展,基于人工智能的音频驱动人脸视频在众多场 景下使用广泛,例如,远程视频会议、虚拟角色生成、三维人脸动画制作和动画视频创作等。与视频图像驱动技术不同的是,基于音频驱动人脸视频生成是根据输入的音频信 息中的特征信息,来预测面部形变。例如,构建一个神经网络模型,对模型依次进行训练和学习。当输入一段音频数据之后,神经网络模型会根据输入的音频作出相应的人脸 表情。

目前通常采用多层感知器对神经辐射场模型进行训练和学习。多层感知器是将图像 像素作为输入,根据图像像素对应的特征向量对像素的颜色值进行回归,以获得后续渲染图像。上述方法虽然能够生成人脸视频,但运行效率低,且无法基于音频驱动实时生 成人脸视频。

发明内容

本申请提供了一种实时音频驱动人脸生成方法、装置及服务器,以解决无法基于音 频驱动实时生成人脸视频的问题。

第一方面,本申请提供了一种实时音频驱动人脸生成方法,包括:

获取训练视频的图像信息和与所述训练视频同步的音频信息;

对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;

对所述音频信息进行特征提取,得到每帧图像的音频特征;

构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;

根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐 射场模型,以获取目标神经辐射场模型;

将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型 进行图像渲染,以生成当前视角及音频条件下的目标图像。

进一步地,所述像素位置特征由以下步骤得到:

根据所述图像信息获取每帧图像的图像尺寸,所述图像尺寸对应的图像包括多个像 素,所述像素对应有原始像素位置特征;

将每个所述像素利用预设公式进行编码,得到每个所述像素对应编码后的像素位置 特征;

将所述编码后的像素位置特征与所述原始像素位置特征进行拼接并更新所述原始像 素位置特征,以获得更新后的像素位置特征。

进一步地,所述神经辐射场模型包括卷积网络编码器和卷积网络解码器;

所述卷积网络编码器包括卷积层、激活层、池化层和归一化层,所述卷积网络解码器卷积层、激活层、归一化层、升采样层和反卷积层。

进一步地,将所述图像信息进行特征提取,得到每帧图像的人脸姿态特征;包括:

获取人脸视频集合,所述人脸视频集合包括多个区域子集合;所述多个区域子集合 包括图像非人脸区域、不包含唇部的人脸区域和上唇、下唇及双唇所包围的区域;

对多个所述区域子集合逐帧进行分割得到多个所述区域子集合对应的每帧分割结 果;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿迁硅基智能科技有限公司,未经宿迁硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111082204.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top