[发明专利]训练频谱合成模型和合成音频的方法、终端及存储介质在审

申请号：	202111093218.2	申请日：	2021-09-17
公开（公告）号：	CN113920982A	公开（公告）日：	2022-01-11
发明（设计）人：	陈洲旋	申请（专利权）人：	腾讯音乐娱乐科技（深圳）有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/04
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	张所明
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练频谱合成模型音频方法终端存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种训练频谱合成模型和合成音频的方法、终端及存储介质，属于互联网技术领域。该方法包括：将训练样本输入初始频谱合成模型，训练样本包括文本样本、对应的语音样本及标准意图向量；提取文本样本对应的样本文本特征信息、语音样本对应的标准频谱数据与语音样本对应的预测意图向量；根据样本文本特征信息和预测意图向量，确定文本样本对应的预测频谱数据；根据预测频谱数据和标准频谱数据、以及预测意图向量和标准意图向量，对初始频谱合成模型进行调参。由于本申请充分考虑到说话者的说话意图对发音的影响，进而使根据频谱合成模型输出的预测频谱合成的音频更加的自然，提高了合成音频的质量。

技术领域

本申请涉及互联网技术领域，特别涉及一种训练频谱合成模型和合成音频的方法、终端及存储介质。

背景技术

随着科学技术的发展，有声小说、有声资讯变的越来越普遍，这使得基于文本自动合成音频的需求越来越迫切。

相关技术中根据文本生成合成音频的方案为：对目标文本进行特征提取，获取该目标文本对应的目标文本特征信息。将目标文本特征信息输入预先训练的频谱合成模型，得到目标文本对应的目标频谱数据。将目标文本对应的目标频谱数据输入声码器，得到目标文本对应的合成音频。其中，文本特征信息包括音素特征信息、分词特征信息以及韵律特征信息。

由于上述合成音频仅仅是基于目标文本特征信息生成的，发音比较生硬机械。

发明内容

本申请实施例提供了一种训练频谱合成模型和合成音频的方法、终端及存储介质，由于本申请充分考虑到说话者的说话意图对发音的影响，使得合成音频的发音更加的自然，提高了合成音频的质量。该技术方案如下：

第一方面，本申请实施例提供了一种训练频谱合成模型的方法，所述方法包括：

将训练样本输入初始频谱合成模型，所述训练样本包括文本样本、对应的语音样本及标准意图向量；

提取所述文本样本对应的样本文本特征信息、所述语音样本对应的标准频谱数据与所述语音样本对应的预测意图向量；

根据所述样本文本特征信息和所述预测意图向量，确定所述文本样本对应的预测频谱数据；

根据所述预测频谱数据和所述标准频谱数据，确定第一损失值；

根据所述预测意图向量和所述标准意图向量，确定第二损失值；

根据所述第一损失值和所述第二损失值，对所述初始频谱合成模型进行调参；

若满足预设的训练结束条件，则将调参后的初始频谱合成模型确定为训练完成的频谱合成模型；

若不满足预设的训练结束条件，则根据其他训练样本，继续对调参后的初始频谱合成模型进行调参。