[发明专利]虚拟形象合成方法、装置、电子设备和存储介质在审
| 申请号: | 201911274701.3 | 申请日: | 2019-12-12 |
| 公开(公告)号: | CN111145282A | 公开(公告)日: | 2020-05-12 |
| 发明(设计)人: | 左童春;何山;胡金水;刘聪 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06T11/00 | 分类号: | G06T11/00;G06F16/783;G06N3/08 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 虚拟 形象 合成 方法 装置 电子设备 存储 介质 | ||
1.一种虚拟形象合成方法,其特征在于,包括:
确定语音数据的相关特征;所述相关特征用于表征所述语音数据中包含的与发言人表情相关的特征;
将形象数据以及所述相关特征输入至表情合成模型中,得到所述表情合成模型输出的虚拟形象视频,所述虚拟形象视频中的虚拟形象配置有对应于所述语音数据的表情;
其中,所述表情合成模型是基于样本发言人视频、所述样本发言人视频对应的样本语音数据的相关特征以及样本形象数据训练得到的。
2.根据权利要求1所述的虚拟形象合成方法,其特征在于,所述将形象数据以及所述相关特征输入至表情合成模型中,得到所述表情合成模型输出的虚拟形象视频,具体包括:
将任一帧分别对应的形象数据和相关特征输入至所述表情合成模型的特征提取层,得到所述特征提取层输出的帧特征;
将所述帧特征输入至所述表情合成模型的表情预测层,得到所述表情预测层输出的所述任一帧的虚拟表情图。
3.根据权利要求2所述的虚拟形象合成方法,其特征在于,所述将任一帧分别对应的形象数据和相关特征输入至所述表情合成模型的特征提取层,得到所述特征提取层输出的帧特征,具体包括:
将任一帧分别对应的形象数据和相关特征输入至所述特征提取层的当前特征提取层,得到所述当前特征提取层输出的当前特征;
将所述任一帧前预设帧的虚拟表情图输入至所述特征提取层的帧前特征提取层,得到所述帧前特征提取层输出的帧前特征。
4.根据权利要求3所述的虚拟形象合成方法,其特征在于,所述将所述帧特征输入至所述表情合成模型的表情预测层,得到所述表情预测层输出的所述任一帧的虚拟表情图,具体包括:
将所述当前特征和所述帧前特征融合后输入至所述表情预测层,得到所述表情预测层输出的所述任一帧的虚拟表情图。
5.根据权利要求4所述的虚拟形象合成方法,其特征在于,所述将所述当前特征和所述帧前特征融合后输入至所述表情预测层,得到所述表情预测层输出的所述任一帧的虚拟表情图,具体包括:
将所述当前特征和所述帧前特征融合后输入至所述表情预测层的候选表情预测层中,得到所述候选表情预测层输出的候选表情图;
将所述当前特征和所述帧前特征融合后输入至所述表情预测层的光流预测层中,得到所述光流预测层输出的光流信息;
将所述候选表情图和所述光流信息输入至所述表情预测层中的融合层,得到所述融合层输出的所述任一帧的虚拟表情图。
6.根据权利要求1所述的虚拟形象合成方法,其特征在于,所述表情合成模型是基于样本发言人视频,样本发言人视频对应的样本语音数据的相关特征和样本形象数据,以及判别器训练得到的,所述表情合成模型和所述判别器构成生成式对抗网络。
7.根据权利要求6所述的虚拟形象合成方法,其特征在于,所述判别器包括图像判别器和/或视频判别器;
其中,所述图像判别器用于判断所述虚拟形象视频中任一帧虚拟表情图的合成真实性,所述视频判别器用于判断所述虚拟形象视频的合成真实性。
8.根据权利要求1至7中任一项所述的虚拟形象合成方法,其特征在于,所述相关特征包括语言相关特征,以及情绪特征和/或发言人身份特征。
9.根据权利要求8所述的虚拟形象合成方法,其特征在于,所述形象数据是基于所述发言人身份特征确定的。
10.根据权利要求1至7中任一项所述的虚拟形象合成方法,其特征在于,所述虚拟形象视频中的虚拟形象配置的对应于所述语音数据的表情包括面部表情和颈部表情。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911274701.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:实时语音交互处理方法及装置、电子设备、存储介质
- 下一篇:一种可形变式软铜排





