[发明专利]语音合成方法、装置、电子设备及存储介质在审

申请号：	202211210441.5	申请日：	2022-09-30
公开（公告）号：	CN115547291A	公开（公告）日：	2022-12-30
发明（设计）人：	游于人;贺来朋;周鸿斌;卢恒	申请（专利权）人：	上海喜马拉雅科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L25/03;G10L25/18
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	张欣欣
地址：	201100 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及音频处理技术领域，提供一种语音合成方法、装置、电子设备及存储介质。利用预设声学模型从待处理文本中提取声学特征得到待处理文本的目标声学特征；利用预先训练的基频预测器从目标声学特征中提取基频特征得到目标基频特征，并利用预先训练的能量预测器从目标声学特征中提取能量特征得到目标能量特征；将目标声学特征、目标基频特征和目标能量特征输入预先训练的通用声码器，生成待处理文本的语音音频；通用声码器是基于多个说话人的语音音频训练得到的。通过将声学特征、基频特征和能量特征作为声码器的输入以进行语音合成，且声码器由多个说话人的语音训练获得，使声码器具有通用性，降低了声码器的训练时长并保证了语音合成的效果。

技术领域

本发明涉及音频处理技术领域，具体而言，涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术

语音合成技术(Text-to-Speech)是指将文本转换为语音音频，其常用于人机交互、有声书朗读等场景。语音合成模型通常包括声学模型和声码器，声学模型用于将文本转换为声学特征，声码器用于将声学特征转换为语音音频。

目前，在为某个特定音色构建语音合成模型时，往往是基于该音色对应的说话人的语音来训练专用的声码器，但是训练专用的声码器需要耗费大量的时间并且训练样本有限，从而导致语音合成的效果差和效率低。

发明内容

有鉴于此，本发明的目的在于提供一种语音合成方法、装置、电子设备及存储介质。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明提供一种语音合成方法，所述方法包括：

利用预设声学模型从待处理文本中提取声学特征，得到所述待处理文本的目标声学特征；

利用预先训练的基频预测器从所述目标声学特征中提取基频特征，得到目标基频特征；

利用预先训练的能量预测器从所述目标声学特征中提取能量特征，得到目标能量特征；