[发明专利]用于生成动画的方法和装置有效
| 申请号: | 201811315036.3 | 申请日: | 2018-11-06 |
| 公开(公告)号: | CN109377539B | 公开(公告)日: | 2023-04-11 |
| 发明(设计)人: | 王建祥;吕复强;刘骁;纪建超 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06T13/20 | 分类号: | G06T13/20;G06T13/40 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 生成 动画 方法 装置 | ||
1.一种用于生成动画的方法,包括:
逐段从目标语音中提取音频特征,汇总为由各语音片段的音频特征所构成的音频特征序列;
将所述音频特征序列输入至预先训练的嘴型信息预测模型,得到与所述音频特征序列相对应的嘴型信息序列,其中,所述音频特征序列中的音频特征与所述嘴型信息序列中的嘴型信息一一对应;
对于所述嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像;
将所生成的人脸图像作为人脸动画的关键帧,生成人脸动画;
其中,所述嘴型信息序列中的嘴型信息包括所对应的语音片段与各预设音素相匹配的概率;以及所述对于所述嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像,包括:
对于所述嘴型信息序列中的嘴型信息,将该嘴型信息中的概率最大值所对应的预设音素作为目标音素,基于预设的对应关系信息,确定与所述目标音素相对应的嘴型对象,生成包含所述嘴型对象的人脸图像,其中,所述对应关系信息用于表征音素与嘴型对象的对应关系;或者
所述嘴型信息序列中的嘴型信息包括嘴部区域的关键点信息;以及所述对于所述嘴型信息序列中的嘴型信息,生成包含该嘴型信息所指示的嘴型对象的人脸图像,包括:
对于所述嘴型信息序列中的嘴型信息,将该嘴型信息中的关键点信息所指示的关键点作为人脸的嘴部区域的骨骼点,生成人脸图像。
2.根据权利要求1所述的用于生成动画的方法,其中,若所述嘴型信息包括所对应的语音片段与各预设音素相匹配的概率,所述嘴型信息预测模型通过如下步骤训练得到:
提取样本集,其中,所述样本集中的样本包括样本语音和所述样本语音的各语音片段的音素标注;
对于样本集中的样本,逐段从该样本的样本语音中提取音频特征,汇总该样本的音频特征序列;将该样本的音频特征序列作为输入,将该样本中的音素标注作为输出,利用机器学习方法训练得到嘴型信息预测模型。
3.根据权利要求1所述的用于生成动画的方法,其中,若所述嘴型信息包括嘴部区域的关键点信息,所述嘴型信息预测模型通过如下步骤训练得到:
提取样本集,其中,所述样本集中的样本包括同步录制的样本视频和样本语音;
对于样本集中的样本,将该样本中的样本视频中的帧依次进行人脸检测和人脸关键点检测,得到各帧的嘴部区域的关键点信息,汇总为关键点信息序列;逐段从该样本的样本语音中提取音频特征,汇总该样本的音频特征序列,其中,所述关键点信息序列中的关键点信息与该样本的音频特征序列中的音频特征一一对应;基于预设的延迟步长,对所述关键点信息序列和该样本的音频特征序列进行更新;将更新后的音频特征序列作为输入,将更新后的关键点信息序列作为输出,利用机器学习方法训练得到嘴型信息预测模型。
4.根据权利要求3所述的用于生成动画的方法,其中,所述基于预设的延迟步长,对所述关键点信息序列和该样本的音频特征序列进行更新,包括:
删除该样本的音频特征序列中的所在次序不大于所述延迟步长的音频特征,以对该样本的音频特征序列进行更新;
确定更新后的音频特征序列中的音频特征的数量;
删除所述关键点信息序列中的所在次序大于所述数量的关键点信息,以对所述关键点信息序列进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811315036.3/1.html,转载请声明来源钻瓜专利网。





