[发明专利]语音合成方法、装置、可读介质及电子设备在审

申请号：	202110609251.X	申请日：	2021-06-01
公开（公告）号：	CN113327580A	公开（公告）日：	2021-08-31
发明（设计）人：	吴鹏飞;潘俊杰;马泽君	申请（专利权）人：	北京有竹居网络技术有限公司
主分类号：	G10L13/10	分类号：	G10L13/10
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	魏云鹿
地址：	101299 北京市平***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置可读介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音合成方法，其特征在于，所述方法包括：

获取待合成文本和指定情感类型；

提取所述待合成文本对应的音素序列，所述音素序列中包括多个音素；

将所述音素序列和所述指定情感类型，输入预先训练的语音合成模型，以得到所述语音合成模型输出的，所述待合成文本对应的具有所述指定情感类型的目标音频，所述目标音频中每个所述音素对应的音频帧，与声学特征序列中该音素对应的声学特征匹配，所述声学特征序列为所述语音合成模型根据所述音素序列确定的，所述声学特征序列包括每个所述音素对应的声学特征，所述声学特征用于指示该音素的韵律特征。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取指定说话人对应的音色编码；

所述将所述音素序列和所述指定情感类型，输入预先训练的语音合成模型，以得到所述语音合成模型输出的，所述待合成文本对应的具有所述指定情感类型的目标音频，包括：

将所述音素序列、所述指定情感类型和所述音色编码，输入所述语音合成模型，以得到所述语音合成模型输出的所述目标音频，所述目标音频具有所述指定说话人的音色，所述语音合成模型为根据多个说话人对应的语料训练得到的，所述多个说话人包括所述指定说话人。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取指定声学特征序列，所述指定声学特征序列包括每个所述音素对应的指定声学特征；

将所述音素序列、所述指定情感类型和所述指定声学特征序列，输入所述语音合成模型，以得到所述语音合成模型输出的所述目标音频，所述目标音频中每个所述音素对应的音频帧，与所述指定声学特征序列中该音素对应的指定声学特征匹配。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述语音合成模型用于：

根据所述音素序列确定所述待合成文本对应的文本特征序列，所述文本特征序列包括每个所述音素对应的文本特征；

根据所述文本特征序列，确定所述声学特征序列；

确定所述指定情感类型对应的指定情感特征，并将所述指定情感特征按照所述音素序列进行扩展，得到情感特征序列；

根据所述文本特征序列、所述声学特征序列和所述情感特征序列，生成所述目标音频。