[发明专利]一种将语音转换成唇形的方法、系统、装置和存储介质有效
申请号: | 202010079859.1 | 申请日: | 2020-02-04 |
公开(公告)号: | CN111261187B | 公开(公告)日: | 2023-02-14 |
发明(设计)人: | 黄桂芳;李权;叶俊杰;王伦基;任勇;韩蓝青 | 申请(专利权)人: | 清华珠三角研究院;赛业(广州)生物科技有限公司 |
主分类号: | G10L21/10 | 分类号: | G10L21/10;G10L25/30;G10L25/24;G10L19/02;G10L19/26;G06V40/20;G06V20/40;G06V10/77;G06V10/82;G06T13/20;G06T13/40 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 何文聪 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转换 成唇形 方法 系统 装置 存储 介质 | ||
本发明公开了一种将语音转换成唇形的方法、系统、装置和存储介质。通过使用长短期记忆网络对语音进行处理,能够达到较快的处理速度,以较少的耗时完成输出唇形关键点的过程,整个过程所造成的延迟较小。对长短期记忆网络的训练过程,能够使长短期记忆网络以人类的语言规律去对接收到的语音解析分析,更加准确地输出合适的唇形图像。设置对长短期记忆网络输出的唇形关键点所进行的反向处理过程,通过按照对训练集进行预处理过程的相反逻辑来对唇形关键点进行处理,可以消除预处理过程对长短期记忆网络形成的影响,使最终获得的唇形关键点具有合适的分布,便于后续应用生成对抗网络等进行视觉化处理。本发明广泛应用于语音数据技术领域。
技术领域
本发明涉及语音数据技术领域,尤其是一种将语音转换成唇形的方法、系统、装置和存储介质。
背景技术
在虚拟主播等领域,广泛地存在将语音转换成唇形的需求。结合文字转换成语音的技术,然后将语音转换成唇形,再将唇形显示在计算机生成的人物头像上,可以使得枯燥无味的新闻稿转换成为逼真的嘴唇动作,提供良好的视觉体验。但是,现有技术普遍存在着计算量庞大、消耗时间多等缺点,在将语音转换成唇形这一过程本身就存在很大的延迟,如果现有技术所要处理的语音是来自文本转换得到的,所输出的唇形还需要应用到后续的变形或贴图等步骤,那么语音转换成唇形这一过程的延迟将会与其他过程的延迟叠加,造成容易察觉且不可忍受的时延,严重影响视觉体验。
发明内容
针对上述至少一个技术问题,本发明的目的在于提供一种将语音转换成唇形的方法、系统、装置和存储介质。
一方面,本发明实施例包括一种将语音转换成唇形的方法,包括:
使用长短期记忆网络接收语音并进行处理;
获取所述长短期记忆网络输出的唇形关键点;
所述长短期记忆网络接受过的训练过程,包括:
构建训练集;所述训练集由语音样本和唇形关键点样本组成;
通过各所述唇形关键点样本的p-范数,分别对各所述唇形关键点样本进行标准化;
通过主成分分析,对各所述唇形关键点样本进行降维;
使用线性插值,对各所述唇形关键点样本进行上采样;
对各所述唇形关键点样本进行归一化。
进一步地,所述将语音转换成唇形的方法还包括以下至少一个步骤:
通过使用与所述训练过程中相同的p-范数,对所述唇形关键点进行反标准化;
通过与所述训练过程中相同的主成分分析,对所述唇形关键点进行升维;
通过与所述训练过程中相同的线性插值,对所述唇形关键点进行下采样;
通过使用与所述训练过程中相同的归一化参数,对各所述唇形关键点进行反归一化。
进一步地,所述将语音转换成唇形的方法还包括对所述唇形关键点进行可视化的步骤。
进一步地,所述对所述唇形关键点进行可视化的步骤,包括:
使用生成对抗网络接收所述唇形关键点;
获取所述生成对抗网络输出的唇形图像。
进一步地,所述构建训练集这一步骤,包括:
拍摄讲话人进行讲话的视频;
从所述视频中获取截图和音频;
对所述截图进行唇形识别,从而获得所述唇形关键点样本;
从所述音频提取MFCC特征,从而获得所述语音样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华珠三角研究院;赛业(广州)生物科技有限公司,未经清华珠三角研究院;赛业(广州)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010079859.1/2.html,转载请声明来源钻瓜专利网。