[发明专利]用于混合语音合成的方法、设备及系统在审
| 申请号: | 201980087069.3 | 申请日: | 2019-12-20 | 
| 公开(公告)号: | CN113287167A | 公开(公告)日: | 2021-08-20 | 
| 发明(设计)人: | A·穆斯塔法;A·比斯瓦斯 | 申请(专利权)人: | 杜比国际公司 | 
| 主分类号: | G10L19/08 | 分类号: | G10L19/08;G06N3/02 | 
| 代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 刘锋 | 
| 地址: | 荷兰阿*** | 国省代码: | 暂无信息 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 用于 混合 语音 合成 方法 设备 系统 | ||
1.一种对原始语音信号进行解码以用于混合对抗参数语音合成的方法,其中所述方法包含以下步骤:
(a)接收通过对原始语音信号应用线性预测编码分析滤波所估计的经量化原始线性预测编码参数及所述原始语音信号的残差的经量化压缩表示;
(b)对所述原始线性预测编码参数及所述残差的所述压缩表示进行去量化;
(c)将所述残差的所述经去量化压缩表示输入到生成器的解码器部分,以应用从压缩残差域到伪(第一)信号域的对抗映射;
(d)由所述生成器的所述解码器部分输出伪语音信号;
(e)对所述伪语音信号应用线性预测编码分析滤波以获得对应伪残差;及
(f)通过对所述伪残差及所述经去量化原始线性预测编码分析参数应用线性预测编码交叉合成滤波来重建所述原始语音信号。
2.根据权利要求1所述的方法,其中步骤(e)中的用于线性预测编码分析滤波的阶数与用于估计所述原始线性预测编码参数的阶数相同。
3.根据权利要求1或权利要求2所述的方法,其中所述生成器是在包含所述生成器及鉴别器的对抗网络设置中训练的生成器,且其中所述生成器及所述鉴别器的训练是基于损失函数中的一或多者。
4.根据权利要求3所述的方法,其中所述生成器的所述解码器部分包含对抗生成区段,所述对抗生成区段包含L层,其中在每一层中具有N个滤波器,其中L是≥1的自然数且其中N是≥1的自然数,其中所述N个滤波器以步长2操作,且在所述L层中的每一者中所述N个滤波器的大小是相同的,且其中在所述L层中的至少一者中,执行转置卷积,接着执行门控tanh单元,且其中输出层随后跟随所述对抗生成区段的所述L层中的最后一层,其中所述输出层包含以步长1操作的N个滤波器,且其中在所述输出层中执行1D卷积运算,接着执行tanh运算。
5.根据权利要求4所述的方法,其中所述生成器的所述解码器部分进一步包含在所述对抗生成区段之前的上下文解码区段。
6.根据权利要求5所述的方法,其中所述上下文解码区段包含具有N个滤波器的L=1层,其中N是≥1的自然数,接着是softmax门控tanh单元的一或多个块,其中所述N个滤波器的大小为1且所述N个滤波器以步长1操作,且其中在所述L=1层中执行1D卷积运算,且其中所述上下文解码区段的softmax门控tanh单元的所述一或多个块的输出与随机噪声向量(z)串接。
7.一种对原始语音信号进行编码以用于混合对抗参数语音合成的方法,其中所述方法包含以下步骤:
(a)接收所述原始语音信号;
(b)对所述原始语音信号应用线性预测编码分析滤波以获得对应残差;
(c)将所述获得的残差输入到生成器的编码器部分以对所述残差进行编码;
(d)由所述生成器的所述编码器部分输出所述残差的压缩表示;
(e)对所述原始语音信号应用线性预测编码分析滤波以估计原始线性预测编码参数;及
(f)量化并传输所述原始线性预测编码参数及所述残差的所述压缩表示,其中步骤(e)中用于线性预测编码分析滤波的阶数高于步骤(b)中的阶数。
8.根据权利要求7所述的方法,其中步骤(b)中用于线性预测编码分析滤波的阶数为16,且步骤(e)中用于线性预测编码分析滤波的阶数在16到50之间的范围内。
9.根据权利要求7或权利要求8所述的方法,其中所述生成器是在包含所述生成器及鉴别器的对抗网络设置中训练的生成器,且其中所述生成器及所述鉴别器的训练是基于损失函数中的一或多者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杜比国际公司,未经杜比国际公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980087069.3/1.html,转载请声明来源钻瓜专利网。





