[发明专利]联合音频视频面部动画系统在审

申请号：	201880069766.1	申请日：	2018-10-26
公开（公告）号：	CN111279413A	公开（公告）日：	2020-06-12
发明（设计）人：	曹晨;陈欣;W·楚;薛泽浩	申请（专利权）人：	斯纳普公司
主分类号：	G10L21/003	分类号：	G10L21/003;G10L21/055;G10L15/183
代理公司：	北京市中咨律师事务所 11247	代理人：	宛丽宏;杨晓光
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	联合音频视频面部动画系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种联合自动音频视频驱动的面部动画系统，在一些示例实施例中，该系统包括具有强大语言模型的完整规模的最新的大型汇量连续语音识别(LVCSR)，用于语音识别和从词格中获得音素对齐。

技术领域

本申请要求于2017年12月29日提交的美国专利申请序列号15/858,992的优先权的权益，其要求2017年10月26日提交的美国临时申请序列号62/577,548的优先权的权益。因此，本文要求保护它们的优先权，并且通过引用将其全部内容合并于此。

技术领域

本公开的实施例总体上涉及移动计算技术，并且更具体地，但不限于此，涉及用于跟踪面部界标(facial landmark)并基于音频和视频数据生成3D面部模型的系统。

背景技术

研究表明，面部跟踪和性能捕获技术已在包括计算机游戏、动画、娱乐、人机接口在内的广泛领域中产生了重大影响。例如，一些研究表明，与仅利用纯文本脚本进行的相同交互相比，利用数字头像(例如动画人脸)进行交互的用户的可信度要高30％。

现有的面部动画系统遵循以下两种技术之一：基于表演的面部动画；或语音驱动的面部动画。基于表演的面部动画是当前用于为游戏和电影生成逼真的角色面部动画的最受欢迎的技术。尽管有效，但这些技术需要特殊设备，例如主体上的物理标记，结构化的灯光和照相机阵列。因此，这种技术对于普通用户是不切实际的。

语音驱动的面部动画也是一种常见的技术，该技术通过首先将原始语音特征(例如Mel频率倒谱系数(MPCC))映射到预定义的视觉参数来起作用。此技术需要大量相应的音频和视频训练数据，以实现更好的通用性能。语音被映射到音素或音素状态特征，然后映射到视觉参数。尽管此方法更易于实施，但准确性在很大程度上取决于可用的训练数据量。

附图说明

为了容易地识别对任何特定元素或动作的讨论，参考编号中的一个或多个最高位数字指的是该元素首次被引入的附图编号。

图1是示出根据一些实施例的用于通过网络交换数据(例如，消息和关联内容)的示例消息传递系统的框图，其中消息系统包括聊天现场系统；

图2是示出根据示例实施例的关于消息传递系统的更多细节的框图；

图3是示出根据某些示例实施例的聊天现场系统的各种模块的框图；

图4是示出根据某些示例实施例的由语音识别模块执行的各种操作的图；

图5是根据某些示例实施例的跟踪的面部界标和相应的面部模型的描绘；

图6是示出根据某些示例实施例的基于音频和视频数据生成动画面部模型的方法的流程图；

图7是示出根据某些示例实施例的用于基于音频和视频数据生成动画面部模型的方法的流程图；

图8是示出了代表性软件体系结构的框图，该软件体系结构可以与本文描述的各种硬件体系结构结合使用，并用于实现各种实施例；以及

图9是示出根据一些示例实施例的机器的组件的框图，该机器的组件能够从机器可读介质(例如，机器可读存储介质)读取指令并执行本文讨论的方法中的任何一个或多个。

具体实施方式

本发明涉及一种联合自动视听驱动的面部动画系统，在一些示例实施例中，该系统包括具有强语言模型的完整规模的大型词汇连续语音识别(LVCSR)用于语音识别和从词格中获得的音素对齐。知识引导的3D混合形状建模用于每个音素，它利用3D面部建模捕获设备来避免收集训练数据，并引入来自计算机视觉生成的混合形状的偏差。为了进一步提高质量，该系统可以应用计算机视觉生成的跟踪，并通过结合音频和视频信息来联合地合成面部动画。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于斯纳普公司，未经斯纳普公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201880069766.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]联合音频视频面部动画系统在审

专利文献下载