[发明专利]基于唇形的语音生成方法、装置和系统及存储介质在审
| 申请号: | 202010650146.6 | 申请日: | 2020-07-08 |
| 公开(公告)号: | CN111916054A | 公开(公告)日: | 2020-11-10 |
| 发明(设计)人: | 刘博;李秀林 | 申请(专利权)人: | 标贝(北京)科技有限公司 |
| 主分类号: | G10L13/047 | 分类号: | G10L13/047;G06K9/00 |
| 代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰;戴亚南 |
| 地址: | 100192 北京市海淀区西小口路66号中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 语音 生成 方法 装置 系统 存储 介质 | ||
1.一种基于唇形的语音生成方法,包括:
获取包含唇形信息的实际图像序列;
从所述实际图像序列的每个实际图像中分别提取唇部特征,以获得实际唇部特征序列;
将所述实际唇部特征序列输入唇语识别网络,以获得实际中间表示序列,其中,所述实际中间表示序列是音子后验概率序列或音子序列;以及
将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音,所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致。
2.根据权利要求1所述的基于唇形的语音生成方法,其中,所述将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音包括:
将所述实际中间表示序列与音色配置参数一起输入所述目标语音生成网络,以获得所述目标语音,其中,所述音色配置参数是与所述目标发音人唯一相关的发音人嵌入向量。
3.根据权利要求1所述的基于唇形的语音生成方法,其中,在所述将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音之前,所述语音生成方法还包括:
基于音色配置参数从多个预设语音生成网络中选择所述目标语音生成网络,其中,所述音色配置参数是与所述目标语音生成网络唯一相关的标识信息。
4.根据权利要求2或3所述的基于唇形的语音生成方法,其中,在所述将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音之前,所述语音生成方法还包括:
接收用户输入信息;以及
基于所述用户输入信息确定所述音色配置参数。
5.根据权利要求1至3任一项所述的基于唇形的语音生成方法,其中,所述实际中间表示序列是音子后验概率序列,所述语音生成方法还包括:
获取包含唇形信息的样本图像序列和与所述样本图像序列相对应的标注音子序列,其中,所述标注音子序列中的音子与所述样本图像序列中的唇形信息表达的语音内容一致;
从所述样本图像序列的每个样本图像中分别提取唇部特征,以获得样本唇部特征序列;
将所述样本唇部特征序列输入音子识别网络,以获得样本音子序列,所述音子识别网络包括所述唇语识别网络和连接在所述唇语识别网络后面的输出层;以及
将所述标注音子序列作为所述样本音子序列的期望值,对所述音子识别网络进行训练,以获得训练好的所述唇语识别网络。
6.根据权利要求1至3任一项所述的基于唇形的语音生成方法,其中,所述语音生成方法还包括:
获取样本中间表示序列和与所述样本中间表示序列相对应的标注语音,其中,所述标注语音是所述目标发音人的语音;
将所述样本中间表示序列输入所述目标语音生成网络,以获得所述目标发音人的样本语音;以及
将所述标注语音作为所述样本语音的期望值,对所述目标语音生成网络进行训练,以获得训练好的所述目标语音生成网络。
7.根据权利要求6所述的基于唇形的语音生成方法,其中,所述获取样本中间表示序列和与所述样本中间表示序列相对应的标注语音包括:
获取包含唇形信息的样本图像序列和所述标注语音,其中,所述标注语音的内容与所述样本图像序列中的唇形信息表达的语音内容一致;
从所述样本图像序列的每个样本图像中分别提取唇部特征,以获得样本唇部特征序列;
将所述样本唇部特征序列输入所述唇部识别网络,以获得所述样本中间表示序列。
8.一种基于唇形的语音生成装置,包括:
获取模块,用于获取包含唇形信息的实际图像序列;
特征提取模块,用于从所述实际图像序列的每个实际图像中分别提取唇部特征,以获得实际唇部特征序列;
第一输入模块,用于将所述实际唇部特征序列输入唇语识别网络,以获得实际中间表示序列,其中,所述实际中间表示序列是音子后验概率序列或音子序列;以及
第二输入模块,用于将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音,所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于标贝(北京)科技有限公司,未经标贝(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010650146.6/1.html,转载请声明来源钻瓜专利网。





