[发明专利]语音合成方法、装置、设备和存储介质在审
申请号: | 202010117047.1 | 申请日: | 2020-02-25 |
公开(公告)号: | CN113314096A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 黄智颖;雷鸣 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02;G10L17/02;G10L17/22 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 孙明子;刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 设备 存储 介质 | ||
1.一种语音合成方法,其特征在于,包括:
响应于用户触发的交互行为,获取与所述交互行为对应的文本内容和目标用户的标识信息;
确定所述文本内容对应的语言学特征;
将所述语言学特征和所述目标用户的标识信息输入到语音合成模型中,以通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征;
根据所述声学特征,生成与所述文本内容对应的语音信号,以输出所述语音信号。
2.根据权利要求1所述的方法,其特征在于,所述语音合成模型中包括第一编码器和解码器;
所述通过所述语音合成模型获得所述目标用户与所述文本内容对应的声学特征,包括:
通过所述第一编码器对所述语言学特征进行编码,以得到与所述语言学特征对应的第一编码向量;
确定与所述目标用户的标识信息对应的第二编码向量;
拼接所述第一编码向量与所述第二编码向量;
通过所述解码器对拼接后的编码向量进行解码,以得到所述声学特征。
3.根据权利要求2所述的方法,其特征在于,所述语音合成模型中还包括第二编码器,所述第二编码器与所述第一编码器共用所述解码器;
所述方法还包括:
获取与所述目标用户对应的语音信号样本,所述语音信号样本不对应于所述文本内容;
确定所述语音信号样本对应的音素后验概率特征和声学特征;
以所述语音信号样本对应的声学特征作为监督信息,将所述语音信号样本对应的音素后验概率特征和所述目标用户的标识信息输入到语音合成模型中,以训练所述第二解码器和所述解码器。
4.根据权利要求3所述的方法,其特征在于,所述将所述语音信号样本对应的音素后验概率特征和所述目标用户的标识信息输入到语音合成模型中,以训练所述第二解码器和所述解码器,包括:
通过所述第二编码器对所述音素后验概率特征进行编码,以得到与所述音素后验概率特征对应的第三编码向量;
拼接对应于所述目标用户的标识信息的所述第二编码向量和所述第三编码向量;
通过所述解码器对拼接后的编码向量进行解码,以得到所述解码器输出的声学特征。
5.根据权利要求3所述的方法,其特征在于,所述获取与所述目标用户对应的语音信号样本,包括:
获取多个用户对应的标识信息和语音信号样本,所述多个用户中包括所述目标用户,所述多个用户的语音信号样本用于训练所述第二解码器和所述解码器;
从所述多个用户对应的语音信号样本中获取所述目标用户对应的语音信号样本。
6.根据权利要求3所述的方法,其特征在于,所述确定所述语音信号样本对应的音素后验概率特征和声学特征,包括:
对所述语音信号样本进行分帧处理,以得到多帧语音信号;
提取所述多帧语音信号各自对应的声学特征;
将所述多帧语音信号各自对应的声学特征输入到声学模型中,以通过所述声学模型预测出所述语音信号样本对应的音素后验概率特征,其中,所述多帧语音信号各自对应的声学特征作为所述监督信息。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取多个用户对应的多个训练样本对,其中,任一用户对应的任一训练样本对由语音信号和所述语音信号对应的文本内容组成,所述多个用户中不包括所述目标用户;
通过所述多个用户对应的多个训练样本对训练所述语音合成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010117047.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:抽油机自适应功率电机转速优化方法及随动控制系统
- 下一篇:激光投影设备