[发明专利]一种基于变分自编码器的并行语音合成方法和装置有效
| 申请号: | 202110669900.5 | 申请日: | 2021-06-17 |
| 公开(公告)号: | CN113450761B | 公开(公告)日: | 2023-09-22 |
| 发明(设计)人: | 吴志勇;卢辉 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
| 主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L25/30 |
| 代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 徐罗艳 |
| 地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 编码器 并行 语音 合成 方法 装置 | ||
1.一种基于变分自编码器的并行语音合成方法,其特征在于,包括如下步骤:
S1、接收输入文本,并进行字音转换,得到对应的发音序列;
S2、对所述发音序列进行上下文信息的建模和编码,得到包含上下文信息的语言学特征;
S3、根据所述语言学特征,预测对应的目标声学特征的帧数;
S4、基于所述语言学特征从先验概率分布采样长度为所预测帧数的隐变量;步骤S4具体包括:
S41、采样长度为所预测帧数的高斯噪声;
S42、通过Glow建模以所述语言学特征作为条件输入,利用训练好的隐变量先验概率分布编码器将采样的高斯噪声转换成隐变量先验概率分布;
S43、基于所述语言学特征,从所述隐变量先验概率分布采样长度为步骤S3所预测帧数的隐变量;
S5、将所述语言学特征对齐到所述隐变量上,从对齐的语言学特征中预测目标声学特征,再将所述目标声学特征转换为语音波形信号输出;步骤S5具体包括:
S51、利用训练好的声学解码器,以所述隐变量作为语音声学特征的占位符,将所述语言学特征对齐到所述隐变量上,然后从对齐的语言学特征中预测得到所述目标声学特征;
S52、利用声码器将所述目标声学特征转换为语音波形信号输出,实现语音合成。
2.如权利要求1所述的基于变分自编码器的并行语音合成方法,其特征在于,所述发音序列为音素序列或拼音序列,步骤S2具体包括:
将所述音素序列输入基于自注意力机制的文本编码器,首先经过嵌入层查询每个音素对应的神经网络向量表示,再经多层一维卷积神经网络进行预处理以编码时序及上下文信息,然后经过多个自注意力机制模块实现基于语义的上下文信息编码。
3.如权利要求1所述的基于变分自编码器的并行语音合成方法,其特征在于,步骤S3具体包括:
将所述语言学特征输入训练好的总时长预测器,经过两层全连接网络输出字符级别的时长信息,将各个字符对应的输出进行加和得到所述目标声学特征的帧数。
4.如权利要求1所述的基于变分自编码器的并行语音合成方法,其特征在于,还包括引入隐变量后验概率分布编码器,对隐变量后验概率分布编码器、隐变量先验概率编码器、声学解码器和总时长预测器同时进行联合训练的过程;
训练时,以语言学特征及声学特征为条件的隐变量后验概率分布输入声学解码器进行声学特征的预测,并通过拉近以语言学特征为条件的隐变量先验概率分布和以语言学特征及声学特征为条件的隐变量后验概率分布之间的KL散度来进行训练。
5.如权利要求4所述的基于变分自编码器的并行语音合成方法,其特征在于,训练集中的数据对包含训练文本及其对应的语音波形信号;训练时,将训练文本的语言学特征以及从训练文本的语音波形信号提取到的声学特征一同输入隐变量后验概率分布编码器,建模隐变量后验概率分布。
6.如权利要求4所述的基于变分自编码器的并行语音合成方法,其特征在于,在训练过程中,所述隐变量后验概率分布编码器将帧级别隐变量的单个时间步的向量的后验概率分布建模为一个各向同性的高斯分布,并预测各个分布的均值向量和方差向量,以得到所述隐变量后验概率分布。
7.如权利要求6所述的基于变分自编码器的并行语音合成方法,其特征在于,在训练过程中,所述隐变量后验概率分布编码器建模所述隐变量后验概率分布,具体包括:
从训练文本的语音波形信号提取到的声学特征经过基于全连接网络的预处理模块进行稀疏化后作为查询特征,训练文本的语言学特征作为键特征,通过注意力机制进行查询特征与键特征对齐权重的计算;
将训练文本的语言学特征作为值特征根据所述对齐权重进行加权,得到对应于每一帧声学特征的语言学上下文特征;
以所述语言学上下文特征为输入,通过两个全连接网络模块分别进行均值和方差的预测,得到隐变量后验概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110669900.5/1.html,转载请声明来源钻瓜专利网。





