[发明专利]级联卷积LSTM的语音驱动唇形同步人脸视频合成算法有效

专利信息
申请号: 201810972946.2 申请日: 2018-08-24
公开(公告)号: CN109308731B 公开(公告)日: 2023-04-25
发明(设计)人: 朱建科;江泽胤子 申请(专利权)人: 浙江大学
主分类号: G06T13/40 分类号: G06T13/40;G10L21/10;G10L21/0356
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 林超
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 级联 卷积 lstm 语音 驱动 形同 步人脸 视频 合成 算法
【说明书】:

发明公开了一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法。采集目标人物的说话视频作为底板视频,对图像序列进行三维人脸重建获得目标三维人脸模型,获得底板视频的面部动画向量序列;音频信号提取出滤波器组的语音特征;将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练测试;用音频信号的面部动画向量序列替换目标三维人脸模型的面部动画向量序列生成新三维人脸模型并渲染人脸图像合成唇形同步人脸视频。本发明保留更多的声纹信息,创新通过二维卷积神经网络获取滤波器组的语音特征,扩大了卷积神经网络的感受野,增加了网络深度,获得了准确的唇形同步人脸视频。

技术领域

本发明涉及计算机视觉领域以及音频信号处理的相关技术,尤其涉及了一种基于级联卷积长短时记忆网络结构(级联卷积LSTM)的语音驱动唇形同步人脸视频算法。

背景技术

经过近些年的探索和发展,计算机视觉已经在数字娱乐、医疗健康、安防监控等很多领域具有应用场景。合成逼真的视觉内容不仅具有很大的商业价值,而且也是业界一直所期望的。如果没有计算机合成的综合视觉效果,许多电影特效也是不可能实现的。目前,网络上就已经存在着大量的人工合成视频。此外,语音识别与文本合成语音技术也已广泛应用于聊天机器人中。本发明希望通过提出一种新的从语音或文本合成语音生成唇形同步人脸视频的方法,使得网络聊天机器人具有真人的外观及表情。

语音或文本合成语音通常被表示为单声道音频信号,且频率很高,通常为16KHz。另一方面,视频是二维图像的时间序列,具有高维度(超过100K)和相对较低的采样频率,如25帧/秒,是一个三维信号。由于人类对面部表情的微妙变化非常敏感,所以需要生成细粒度的合成结果。因此,通过从低维度高频语音的音频信号或文本合成语音的音频信号中直接恢复高保真度的高维度低频视频是很有挑战的,这是一个严重欠约束的病态问题。

发明内容

为了解决背景技术中存在的问题,本发明提出了级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,实现了通过语音或文本合成语音合成唇形同步人脸视频。

本发明采用的技术方案包括如下步骤:

1)采集目标人物的说话视频作为底板视频,说话视频中的目标人物即为最终人脸视频合成的主体人物,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列,该面部动画向量序列即为合成人脸表情的加权系数;

2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;

3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;

训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;

测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;

4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合准确稠密的三维人脸追踪方式生成新的三维人脸模型;

5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。

本发明特殊采用滤波器组的语音特征处理获得面部模型数据,构建了特殊的级联卷积长短时记忆网络进行训练预测获得对应音频信号的面部模型数据替换图像的面部模型数据合成获得唇形同步人脸视频。

所述步骤1)中的目标三维人脸模型使用了准确稠密的三维形变模型三维人脸重建。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810972946.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top