[发明专利]一种基于人脸关键点预测的虚拟数字人生成方法及装置有效
申请号: | 202211259986.5 | 申请日: | 2022-10-14 |
公开(公告)号: | CN115588224B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 王德军;潘飞;孟博 | 申请(专利权)人: | 中南民族大学 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/80;G06V10/82;G06N3/0475;G06N3/048;G06N3/09;G06N3/094 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键 预测 虚拟 数字 人生 成方 装置 | ||
本发明公开了一种人脸关键点的预测方法、虚拟数字人生成方法及装置,其中的虚拟数字人生成方法包括挖掘语音中的情感,语音预测生成人脸表情关键点,通过关键点拟合3D人脸模型,调整姿势角度,虚拟数字人视频生成模型。通过将语音输入到人脸关键点模型中获取预测的人脸关键点,然后将关键点和3D人脸模型进行对齐,调整对齐之后的3D人脸模型姿势,然后将调整姿势之后的3D人脸模型输入至虚拟数字人生成模型中,得到与目标语音口型、情感一致,且具有不同姿势角度的虚拟数字人视频。虚拟数字人生成模型,用了注意力机制,使得生成的视频和目标图像和生成视频保持一致的背景。
技术领域
本发明涉及计算机技术领域,涉及一种基于人脸关键点预测的虚拟数字人生成方法及装置。
背景技术
目前人工智能技术和增强现实(Augmented Reality,AR)智能技术正在飞速发展,互联网用户的内容摄取需求越来越丰富,针对动画,虚拟数字人,AR等内容的需求越加强烈。
现有技术中,在进行人脸关键点进行预测时,没有包含情感信息;在进行动画的制作时,面部表情的控制通常由动捕演员表演后导入虚拟数字人,然后由配音演员配音后再对虚拟数字人的口型进行人为的调整。此方法对于配音演员的要求极高,要求其对动画片段及其的熟悉已经超高的反应能力。
但是,这种方法难以保证配音后的虚拟数字人的声音和口型能够精准的同步。所以需要人为的对口型进行再调整。这整个过程比较繁杂,制作成本高,并且需要非常专业的技术人员才能完成。并且,虚拟数字人的面部表情通常和语中蕴含的情感有很大的关联,如果将配音和面部表情分开,那么在虚拟数字人生成的时候会导致语音和表情的不自然。某些极端情况下,比如完全依靠系统生成的虚拟数字人,没有专业的动捕演员提供表情输入,只有语音的情况下,虚拟数字人的生成将会失败。
因此,现在方法生成的人脸关键点包含的信息不够丰富、生成的虚拟数字人不够自然的技术问题。
发明内容
本发明提供了一种基于人脸关键点预测的虚拟数字人生成方法及装置,用以解决或者至少部分解决现有技术中存在的生成的人脸关键点包含的信息不够丰富、生成的虚拟数字人不够自然的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种人脸关键点的预测方法,包括:
构建语音生成人脸关键点模型,其中,语音生成人脸关键点模型包括静态人脸关键点生成模块、语音情感内容跨模态重构模块和映射模块,语音情感内容跨模态重构模块包括内容编码器和情感编码器;
对语音情感内容跨模态重构模块进行训练,得到训练好的语音情感内容跨模态重构模块,与模型中的其它模块一同构成训练好的语音生成人脸关键点模型;
将语音输入至训练好的语音生成人脸关键点模型中,通过语音生成人脸关键点模型中的静态人脸关键点生成模块采用预设人脸识别算法提取静态人脸关键点,通过内容编码器和情感编码器分别提取语音特征和情感特征,再通过映射模块对提取的静态人脸关键点、语音特征和情感特征进行融合,生成带有表情的人脸关键点。
在一种实施方式中,在对语音情感内容跨模态重构模块进行训练时,以两组语音作为输入,训练过程中的损失包括交叉重建损失Lcross、自重建损失Lself、分类损失Lcla和内容损失Lcon,其中,
交叉重建损失表示为:
自重建损失表示为:
分类损失定义为:
内容损失表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211259986.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高性能TSR9710天然橡胶的制备工艺
- 下一篇:接线端子