[发明专利]一种语音合成方法和系统有效
| 申请号: | 202010768946.8 | 申请日: | 2020-08-03 |
| 公开(公告)号: | CN111899716B | 公开(公告)日: | 2021-03-12 |
| 发明(设计)人: | 易中华 | 申请(专利权)人: | 北京帝派智能科技有限公司 |
| 主分类号: | G10L13/047 | 分类号: | G10L13/047;G10L13/08;G10L25/30;G10L19/04;G10L19/16 |
| 代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 郭放;许伟群 |
| 地址: | 100080 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 合成 方法 系统 | ||
1.一种语音合成方法,其特征在于,包括:
获取训练数据,所述训练数据包括成对设置的文本发音单元序列和语音频谱单元序列,所述文本发音单元序列包含至少一个文本发音单元,所述语音频谱单元序列包含至少一个语音特征帧;
将所述文本发音单元序列进行编码,得到对应的编码序列,所述编码序列包含至少一个元素,每个元素对应所述文本发音单元序列中的一个文本发音单元;
将所述编码序列中的每个元素复制目标次数,并按照各个元素在所述编码序列中的先后顺序对所有复制后的元素进行排列,得到扩增编码序列;
将所述扩增编码序列进行解码,得到语音频谱单元预测序列,所述语音频谱单元预测序列与所述语音频谱单元序列的损失距离作为训练所述语音合成系统的监督信号;
当所述语音合成系统训练收敛后,将所述语音频谱单元预测序列耦合至声码器,所述声码器用于根据所述语音频谱单元预测序列生成语音信号数据并输出。
2.根据权利要求1所述的方法,其特征在于,所述语音频谱单元序列通过以下步骤获取:
去除训练语音的首部和尾部包含的无声音内容;
在去除无声音内容后的训练语音的首部和尾部增加预设时长的静音内容;
对增加了静音内容的训练语音进行频谱转换,得到所述语音频谱单元序列。
3.根据权利要求1所述的方法,其特征在于,所述将所述文本发音单元序列进行编码,得到对应的编码序列,包括:
对所述文本发音单元序列进行独热onehot编码;
使用全连接网络对所述文本发音单元序列的onehot编码结果进行向量化处理,得到词嵌入序列,或者,使用预先训练的词嵌入模型将所述发音单元序列的onehot编码转换成所述词嵌入序列;
使用具备上下文视野的编码器encoder对所述词嵌入序列进行编码,得到所述编码序列。
4.根据权利要求1所述的方法,其特征在于,所述目标次数通过以下方法确定:
将所述语音频谱单元序列包含的所述语音特征帧的数量除以所述文本发音单元序列的文本发音单元的数量,并对结果取整作为所述目标次数。
5.根据权利要求1所述的方法,其特征在于,所述将所述扩增编码序列进行解码,得到语音频谱单元预测序列,包括:
使用具备上下文视野的解码器decoder对所述扩增编码序列进行解码,所述具备上下文视野的解码器以当前元素的信号以及当前元素周围的元素的信号作为输入信号;
对所述扩增编码序列进行解码结果使用后处理网络得到所述语音频谱单元预测序列,所述后处理网络包括多层卷积网络或者全连接网络。
6.根据权利要求1所述的方法,其特征在于,所述语音频谱单元预测序列与所述语音频谱单元序列的损失距离使用动态规划算法确定。
7.根据权利要求3所述的方法,其特征在于,所述具备上下文视野的编码器encoder包括多头自注意力网络Multihead Attention Network、长短期记忆网络LSTM、门控循环单元GRU和卷积神经网络CNN中的一种或者多种或者多层网络的堆叠;所述具备上下文视野的编码器以所述词嵌入序列的位置编码作为额外输入。
8.根据权利要求5所述的方法,其特征在于,所述具备上下文视野的解码器decoder包括多头自注意力网络Multihead Attention Network、长短期记忆网络LSTM、门控循环单元GRU和卷积神经网络CNN中的一种或者多种或者多层网络的堆叠;所述具备上下文视野的解码器以所述扩增编码序列的位置编码作为额外输入。
9.根据权利要求1所述的方法,其特征在于,所述语音特征帧的时长为预设固定值。
10.一种语音合成系统,其特征在于,包括:存储器和处理器,所述存储器存储有程序指令,当所述程序指令被所述处理器执行时,使得所述系统执行如下程序步骤:
获取训练数据,所述训练数据包括成对设置的文本发音单元序列和语音频谱单元序列,所述文本发音单元序列包含至少一个文本发音单元,所述语音频谱单元序列包含至少一个语音特征帧;
将所述文本发音单元序列进行编码,得到对应的编码序列,所述编码序列包含至少一个元素,每个元素对应所述文本发音单元序列中的一个文本发音单元;
将所述编码序列中的每个元素复制目标次数,并按照各个元素在所述编码序列中的先后顺序对所有复制后的元素进行排列,得到扩增编码序列;
将所述扩增编码序列进行解码,得到语音频谱单元预测序列,所述语音频谱单元预测序列与所述语音频谱单元序列的损失距离作为训练所述语音合成系统的监督信号;
当所述语音合成系统训练收敛后,将所述语音频谱单元预测序列耦合至声码器,所述声码器用于根据所述语音频谱单元预测序列生成语音信号数据并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京帝派智能科技有限公司,未经北京帝派智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010768946.8/1.html,转载请声明来源钻瓜专利网。





