[发明专利]用于确定嘴型的方法、装置、设备和存储介质有效
申请号: | 201910289051.3 | 申请日: | 2019-04-11 |
公开(公告)号: | CN110136698B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 李鑫;刘霄;赵翔;李甫;何栋梁;龙翔;迟至真;文石磊;丁二锐 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L15/06;G10L15/25;G10L25/24;G10L25/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;李峥宇 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 确定 方法 装置 设备 存储 介质 | ||
1.一种基于语音来确定虚拟人物的嘴型的方法,包括:
获取用于确定所述虚拟人物的嘴型的语音序列;
按照预定步长将所述语音序列划分为多个语音片段,所述多个语音片段之间不具有时间顺序;
基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示;以及
基于所述多个向量化表示,根据嘴型生成模型中包括的真实人物的嘴型与真实人物的语音片段的向量化表示之间的关联关系,确定与所述多个语音片段的所述多个向量化表示相对应的嘴型序列,
其中所述嘴型序列中的嘴型与所述多个语音片段中的语音片段的向量化表示相关联,以及所述嘴型生成模型是基于卷积神经网络获得的。
2.根据权利要求1所述的方法,其中基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示包括:针对所述多个语音片段中的语音片段,
分别提取描述所述语音片段中的多个预定采样点处的语音的多个特征向量;以及
基于所述多个特征向量生成针对所述语音片段的向量化表示。
3.根据权利要求1所述的方法,其中确定与所述多个语音片段的所述多个向量化表示相对应的嘴型序列包括:针对所述多个向量化表示中的向量化表示,
根据所述关联关系,确定与所述向量化表示相关联的嘴型。
4.根据权利要求1所述的方法,进一步包括:
获取包括所述虚拟人物的图像;
基于所述嘴型序列中的各个嘴型,分别更新所述图像中的与所述虚拟人物的嘴部相关联的区域以形成图像序列;以及
基于所述图像序列和所述语音序列,生成包括所述虚拟人物的图像和语音的视频序列。
5.根据权利要求4所述的方法,其中所述嘴型包括多个关键点,所述多个关键点描述所述真实人物的嘴型的轮廓。
6.根据权利要求5所述的方法,其中基于所述嘴型序列中的各个嘴型,分别更新所述图像中的与所述虚拟人物的嘴部相关联的区域以形成图像序列包括:针对所述嘴型序列中的所述嘴型,
利用所述嘴型包括的多个关键点,调整所述虚拟人物的所述图像中的嘴部图像。
7.根据权利要求1所述的方法,进一步包括:获取所述嘴型生成模型,包括:
获取所述真实人物的多个样本嘴型以及分别与所述多个样本嘴型相关联的所述真实人物的多个样本语音片段的多个样本向量化表示;以及
基于所述多个样本嘴型与所述多个样本向量化表示,训练所述嘴型模型以使得所述嘴型模型描述所述多个样本嘴型与所述多个样本向量化表示之间的所述关联关系。
8.根据权利要求7所述的方法,其中获取所述多个样本嘴型和所述多个样本向量化表示进一步包括:
获取包括所述真实人物的图像和语音的视频序列;
按照预定步长将所述视频序列划分为多个视频片段;
针对所述多个视频片段中的视频片段,
基于所述视频片段的视频部分,提取包括所述真实人物的样本嘴型的图像帧;
基于所述视频片段的视频部分,生成描述所述真实人物语音的样本向量化表示。
9.根据权利要求1所述的方法,其中:所述卷积神经网络是全卷积神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910289051.3/1.html,转载请声明来源钻瓜专利网。