[发明专利]一种基于综合加权算法的口型动画合成方法有效

申请号：	201410712164.7	申请日：	2014-11-27
公开（公告）号：	CN104361620B	公开（公告）日：	2017-07-28
发明（设计）人：	韩慧健;梁秀霞;贾可亮;张锐;刘峥;其他发明人请求不公开姓名	申请（专利权）人：	韩慧健
主分类号：	G06T13/40	分类号：	G06T13/40;G10L13/02
代理公司：	北京元本知识产权代理事务所11308	代理人：	秦力军
地址：	250014 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于综合加权算法口型动画合成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及人脸表情动画研究领域，更具体地说涉及到口型与语音匹配的口型动画合成研究领域。

背景技术

随着计算机动画技术的不断进步，人们对人机交互中口型动画的要求越来越高。但是，汉语口型动画的发展相对比较落后。一方面由于口型动画是一个多学科交叉的研究方向，包括了人机交互、计算机图形学、语音语言学等，而相关学科的发展不均衡，使得构建一个逼真的、高自动化程度口型动画系统仍是一个极富挑战性的研究课题。另一方面，世界上有四分之一的人说汉语，汉语口型动画系统具有极其广阔的应用市场，但是由于汉语本身所具有的复杂性，使得目前针对汉语的语音口型动画系统的研究相对较少，发展也相对滞后，尤其是国内学者的研究工作仍处于刚起步阶段，缺乏理论积累与技术积淀，导致了能够实现汉语口型动画设计的软件很少，而比较著名的口型动画设计软件如Poser口型大师Mimic、3ds max插件Voice-O-Matic等，都主要针对英文语言，对汉语支持性较差。

针对英语口型动画研究，先后出现了协同发音模型，文本驱动、语音驱动以及混合驱动的方法，Guiard-Marigny等人提出了一种基于语音和图像共同作用驱动合成口型动画的方法，Bregler等人提出了videoRewrite方法，该方法利用计算机视觉跟踪说话人嘴唇的特征点，并利用变形技术将这些嘴唇姿态组合成最终的口型动画序列，Kang Liu与Jorn.Osterman提出英文中口型与字母音位的对应关系，并在MPEG-4动画标准的基础上建立脸部、口型动画合成的算法。针对汉语口型动画方面的研究较少。汉语口型动画合成的真实感效果在短时间内难以达到并超越国际先进水平。这就对汉语口型动画的研究提出了迫切的要求。此外，现有技术中缺少对背景噪声以及背景图像的考虑，使得动画不够生动、真实，并且不能根据实际需要来模拟场景，以及根据需要来调整噪声以提高动画的效果。

本发明从构建语音驱动口型动画合成的研究角度出发，对三维唇区模型设计、唇动序列设计、汉语语音同步算法及个性化口型建模进行深入研究，实现在输入汉语文本信息的条件下，利用信息技术合成，输出视觉上具有高度真实感与唇音完美协调同步的虚拟人口型动画，并且通过添加背景图像，使得动画可以根据需要来模拟各种场景，通过对噪声的分层次处理和添加，从而使得动画生动、真实，提高了动画的效果。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于综合加权算法的口型动画合成方法，该方法能够输出视觉上具有高度真实感与唇音完美协调同步的虚拟人口型动画，并且动画生动、真实、效果好，依次包括以下步骤：

步骤1：输入汉语文本，针对输入的汉语文本进行分析，将汉字拆分为不同的汉语可视化音素，并将这些因素发送到语音合成系统合成为基本的可视化音素流；

步骤2：基于MPEG-4标准建立具有真实感的参数人脸模型，使用可视化音素动画帧参数驱动模型的形变，实现人脸口型动画；

步骤3：从输入汉语文本中获得与输入汉语文本同步的输入背景噪声，对输入背景噪声进行分析，进行输入背景噪声平滑处理，得到初始输入背景噪声；

步骤4：从汉字拆分为不同的汉语可视化音素中分别提取音素拆分后的音素输入背景噪声，对音素输入背景噪声进行分析，进行音素输入背景噪声平滑处理，得到初始音素输入背景噪声；

步骤5：利用得到的初始音素输入背景噪声，对得到的初始输入背景噪声进行校正，得到校正后的输入背景噪声；

步骤6：基于综合加权算法，获得声韵时间控制比例，添加声韵权重值因子，重新计算单音素口型动画的时间，控制口型动画的合成，将合成的汉语语音与人脸口型动画同步；

步骤7：根据动画场景添加背景图像，与合成的汉语语音与人脸口型动画同步；

步骤8：基于综合加权算法，获得噪声时间控制比例，添加噪声权重值因子，计算校正后的输入背景噪声的噪声同步时间；

步骤9：根据动画合成的需求，选择控制添加校正后的输入背景噪声，与合成汉语语音、人脸口型动画和背景图像的合成动画进行同步，实现逼真的人脸口型动画。

针对输入的汉语文本进行分析，将汉字拆分为不同的汉语可视化音素是将汉字按照标准汉语拼音中声母和韵母的划分，完成口型拼音声部和口型拼音韵部的定义，将汉字的标准拼音转换成口型声部和口型韵部符号组成的口型拼音。