[发明专利]虚拟形象合成方法、装置、电子设备和存储介质在审
| 申请号: | 202011301793.2 | 申请日: | 2020-11-19 |
| 公开(公告)号: | CN112465935A | 公开(公告)日: | 2021-03-09 |
| 发明(设计)人: | 李林;何山;胡金水;殷兵;刘聪 | 申请(专利权)人: | 科大讯飞股份有限公司 |
| 主分类号: | G06T13/20 | 分类号: | G06T13/20;G06T13/40 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
| 地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 虚拟 形象 合成 方法 装置 电子设备 存储 介质 | ||
本发明提供一种虚拟形象合成方法、装置、电子设备和存储介质,其中方法包括:确定待合成的语音数据的语音特征,以及与所述语音特征相对应的面部表情特征;对所述语音特征和所述面部表情特征进行融合,基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频。本发明提供的方法、装置、电子设备和存储介质,对语音特征和面部表情特征进行融合,基于融合所得的特征合成虚拟形象视频,面部表情特征的应用使得合成虚拟形象的表情能够趋向于一致稳定,语音特征的应用降低面部表情特征的准确性对于虚拟形象合成准确性的影响,为虚拟形象合成提供更多口唇细节信息。从而保证虚拟形象视频中虚拟形象的表情能够自然匹配语音数据。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种虚拟形象合成方法、装置、电子设备和存储介质。
背景技术
虚拟形象是随着语音合成技术、视频生成技术发展而来的新的交互展示媒介,能够极大提升人机交互自然度和体验感。
目前虚拟形象的合成方法多是直接根据语音特征生成虚拟形象的口型区域图像,从而实现语音和口型的同步对应。但是由于语音和口型之间的映射关系不唯一,生成结果并不稳定,由此合成的虚拟形象在输出语音时,其对应的表情往往不够逼真自然,用户体验较差。
发明内容
本发明提供一种虚拟形象合成方法、装置、电子设备和存储介质,用以解决现有的虚拟形象在输出语音时对应的表情不够逼真、自然的问题。
本发明提供一种虚拟形象合成方法,包括:
确定待合成的语音数据的语音特征,以及与所述语音特征相对应的面部表情特征;
对所述语音特征和所述面部表情特征进行融合,基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频。
根据本发明提供一种的虚拟形象合成方法,所述对所述语音特征和所述面部表情特征进行融合,包括:
基于融合权重对所述语音特征和所述面部表情特征进行加权融合,所述融合权重是基于所述语音特征确定的。
根据本发明提供一种的虚拟形象合成方法,所述基于融合权重对所述语音特征和所述面部表情特征进行加权融合,包括:
对所述语音特征进行特征提取,得到所述融合权重以及语音特征图;
对所述面部表情特征进行特征提取,得到与所述语音特征图相同维度的表情特征图;
基于所述融合权重,对所述语音特征图和所述表情特征图进行加权求和。
根据本发明提供一种的虚拟形象合成方法,所述基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频,包括:
对虚拟形象掩膜图像进行特征编码,得到掩膜图像特征;
基于所述掩膜图像特征与融合所得的特征,确定整体形象特征;
对所述整体形象特征进行特征解码,得到所述虚拟形象视频。
根据本发明提供一种的虚拟形象合成方法,所述对所述语音特征和所述面部表情特征进行融合,基于融合所得的特征合成表情与所述语音数据相匹配的虚拟形象视频,包括:
将所述语音特征和所述面部表情特征输入至形象合成模型,得到所述形象合成模型输出的所述虚拟形象视频;
其中,所述形象合成模型是基于样本语音特征及其相对应的样本面部表情特征,以及形象判别模型训练得到的,所述形象判别模型用于区分虚拟形象和真实形象。
根据本发明提供一种的虚拟形象合成方法,所述与所述语音特征相对应的面部表情特征是基于如下步骤确定的:
将所述语音特征输入至表情映射模型,得到所述表情映射模型输出的与所述语音特征相对应的面部表情特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011301793.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大吨位绝缘子机械省力丝杠
- 下一篇:一种有载分接开关切换时序检测方法





