[发明专利]一种基于人脸关键点预测的虚拟数字人生成方法及装置有效
申请号: | 202211259986.5 | 申请日: | 2022-10-14 |
公开(公告)号: | CN115588224B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 王德军;潘飞;孟博 | 申请(专利权)人: | 中南民族大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/80;G06V10/82;G06N3/0475;G06N3/048;G06N3/09;G06N3/094 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键 预测 虚拟 数字 人生 成方 装置 | ||
1.一种基于人脸关键点预测的虚拟数字人生成方法,其特征在于,包括:
生成带有表情的人脸关键点,具体包括:构建语音生成人脸关键点模型,其中,语音生成人脸关键点模型包括静态人脸关键点生成模块、语音情感内容跨模态重构模块和映射模块,语音情感内容跨模态重构模块包括内容编码器和情感编码器;对语音情感内容跨模态重构模块进行训练,得到训练好的语音情感内容跨模态重构模块,与模型中的其它模块一同构成训练好的语音生成人脸关键点模型;将语音输入至训练好的语音生成人脸关键点模型中,通过语音生成人脸关键点模型中的静态人脸关键点生成模块采用预设人脸识别算法提取静态人脸关键点,通过内容编码器和情感编码器分别提取语音特征和情感特征,再通过映射模块对提取的静态人脸关键点、语音特征和情感特征进行融合,生成带有表情的人脸关键点;
利用生成的带有表情的人脸关键点对3D人脸模型进行拟合,得到拟合后的3D人脸模型投影图像;
将目标图像与拟合后的3D人脸模型投影图像输入预先构建好的虚拟数字人生成模型中,虚拟数字人生成模型包括人脸特征关键点估计模块、特征变形模块、注意力机制模块以及生成对抗网络,通过人脸特征关键点估计模块学习拟合后的3D人脸模型投影图像的姿势和表情特征,生成深度图;通过特征变形模块将人脸特征关键点估计模块学习到的特征的编码进行融合,通过注意力机制模块结合深度图和特征变形模块的输出的融合特征得到细化后的特征,将人脸特征编码和图片背景分开,生成对抗网络根据注意力机制模块的输出生成姿势可控且带有表情的虚拟数字人。
2.如权利要求1所述的虚拟数字人生成方法,其特征在于,在对语音情感内容跨模态重构模块进行训练时,以两组语音作为输入,训练过程中的损失包括交叉重建损失Lcross、自重建损失Lself、分类损失Lcla和内容损失Lcon,其中,
交叉重建损失表示为:
Lcross=||D(Ec(xi,m),Ee(xj,n))-xi,n||2+||D(Ec(xj,n),Ee(xi,m))-xj,m||2
自重建损失表示为:
Lself=||D(Ec(xi,m),Ee(xi,m))-xi,m||2+||D(Ec(xj,n),Ee(xj,n))-xj,n||2
分类损失定义为:
内容损失表示为:
xi,m,xj,n,xj,m,xi,n为4个重构的音频样本,其中x表示重构的新样本,i,j表示不同的语音内容,m,n表示不同的语音情感,Ec表示内容编码器,Ee表示情感编码器,Ec()表示利用内容编码器提取的特征,Ee()表示利用情感编码器提取的特征,D表示语音解码器,D()表示利用解码器进行交叉重构,N表示不同情绪类型的总数,pk表示样本是否带情绪类别k,qk表示情绪类别k的预测概率;
语音情感内容跨模态重构模块的总损失函数为Ldis,计算公式为:
Ldis=Lcross+Lself+λclaLcla+λconLcon
其中λcla和λcon分别是分类损失和内容损失的权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211259986.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高性能TSR9710天然橡胶的制备工艺
- 下一篇:接线端子