[发明专利]一种将语音转换成唇形的方法、系统、装置和存储介质有效

申请号：	202010079859.1	申请日：	2020-02-04
公开（公告）号：	CN111261187B	公开（公告）日：	2023-02-14
发明（设计）人：	黄桂芳;李权;叶俊杰;王伦基;任勇;韩蓝青	申请（专利权）人：	清华珠三角研究院;赛业（广州）生物科技有限公司
主分类号：	G10L21/10	分类号：	G10L21/10;G10L25/30;G10L25/24;G10L19/02;G10L19/26;G06V40/20;G06V20/40;G06V10/77;G06V10/82;G06T13/20;G06T13/40
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	何文聪
地址：	510530 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音转换成唇形方法系统装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种将语音转换成唇形的方法、系统、装置和存储介质。通过使用长短期记忆网络对语音进行处理，能够达到较快的处理速度，以较少的耗时完成输出唇形关键点的过程，整个过程所造成的延迟较小。对长短期记忆网络的训练过程，能够使长短期记忆网络以人类的语言规律去对接收到的语音解析分析，更加准确地输出合适的唇形图像。设置对长短期记忆网络输出的唇形关键点所进行的反向处理过程，通过按照对训练集进行预处理过程的相反逻辑来对唇形关键点进行处理，可以消除预处理过程对长短期记忆网络形成的影响，使最终获得的唇形关键点具有合适的分布，便于后续应用生成对抗网络等进行视觉化处理。本发明广泛应用于语音数据技术领域。

技术领域

本发明涉及语音数据技术领域，尤其是一种将语音转换成唇形的方法、系统、装置和存储介质。

背景技术

在虚拟主播等领域，广泛地存在将语音转换成唇形的需求。结合文字转换成语音的技术，然后将语音转换成唇形，再将唇形显示在计算机生成的人物头像上，可以使得枯燥无味的新闻稿转换成为逼真的嘴唇动作，提供良好的视觉体验。但是，现有技术普遍存在着计算量庞大、消耗时间多等缺点，在将语音转换成唇形这一过程本身就存在很大的延迟，如果现有技术所要处理的语音是来自文本转换得到的，所输出的唇形还需要应用到后续的变形或贴图等步骤，那么语音转换成唇形这一过程的延迟将会与其他过程的延迟叠加，造成容易察觉且不可忍受的时延，严重影响视觉体验。

发明内容

针对上述至少一个技术问题，本发明的目的在于提供一种将语音转换成唇形的方法、系统、装置和存储介质。

一方面，本发明实施例包括一种将语音转换成唇形的方法，包括：

使用长短期记忆网络接收语音并进行处理；

获取所述长短期记忆网络输出的唇形关键点；

所述长短期记忆网络接受过的训练过程，包括：

构建训练集；所述训练集由语音样本和唇形关键点样本组成；

通过各所述唇形关键点样本的p-范数，分别对各所述唇形关键点样本进行标准化；

通过主成分分析，对各所述唇形关键点样本进行降维；

使用线性插值，对各所述唇形关键点样本进行上采样；

对各所述唇形关键点样本进行归一化。

进一步地，所述将语音转换成唇形的方法还包括以下至少一个步骤：