[发明专利]级联卷积LSTM的语音驱动唇形同步人脸视频合成算法有效
| 申请号: | 201810972946.2 | 申请日: | 2018-08-24 | 
| 公开(公告)号: | CN109308731B | 公开(公告)日: | 2023-04-25 | 
| 发明(设计)人: | 朱建科;江泽胤子 | 申请(专利权)人: | 浙江大学 | 
| 主分类号: | G06T13/40 | 分类号: | G06T13/40;G10L21/10;G10L21/0356 | 
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 | 
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 级联 卷积 lstm 语音 驱动 形同 步人脸 视频 合成 算法 | ||
1.一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于包括如下步骤:
1)采集目标人物的说话视频作为底板视频,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列;
2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;
3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;
所述步骤3)中的级联卷积长短时记忆网络结构,主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四个级联的全连接长短时记忆网络、三个级联的全连接层网络和输出层依次顺序连接而成;其中二维卷积层的卷积核大小为5*5且卷积核个数为32,两个级联的卷积长短时记忆网络的卷积核大小均为3*3且内部单元数分别为64和100,四个级联的全连接长短时记忆网络的单元数分别为60、100、200、300,三个级联的全连接层网络的卷积核大小分别为200、100、29;
所述的级联卷积长短时记忆网络结构采用以下公式的三元组损失函数,如下:
Ltri=max(0,p-α×n)
其中,y是指训练时的预测面部动画向量序列,是指底板视频的面部动画向量序列,是指经随机打乱的面部动画向量序列,是将底板视频的面部动画向量序列中的各的面部动画向量随机打乱后重新排序获得的面部动画向量序列,p是指训练时的预测面部动画向量序列y和底板视频的面部动画向量序列之间的距离,n是指锚样例和负样例之间的距离,Ltri是所求的三元组损失,α是权重系数,i表示从底板视频的音频信号提取的滤波器组的语音特征的帧序数,N表示从底板视频的音频信号提取的滤波器组的语音特征的帧总数;
4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合三维人脸追踪方式生成新的三维人脸模型;
所述步骤4)使用三维人脸追踪方法获得目标人物的头部姿态和光照系数,头部姿态和光照系数组成构建新的三维人脸模型;
5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。
2.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤1)中的目标三维人脸模型使用了三维形变模型三维人脸重建。
3.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。
4.根据权利要求1所述级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤5)中,渲染人脸图像使用基于数据驱动的相似纹理检索方法以匹配到最符合当前语音的嘴唇图像,再结合嘴唇图像进行最终人脸图像的渲染,合成唇形同步人脸视频。
5.根据权利要求1所述级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤1)中的目标人物的说话视频采用Kinect 2.0相机采集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810972946.2/1.html,转载请声明来源钻瓜专利网。





