[发明专利]语音合成方法、语音合成模型的训练方法及装置在审
申请号: | 202110400408.8 | 申请日: | 2021-04-14 |
公开(公告)号: | CN113112987A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 胡大盟 | 申请(专利权)人: | 北京地平线信息技术有限公司 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L13/08 |
代理公司: | 北京市正见永申律师事务所 11497 | 代理人: | 黄小临;冯玉清 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 模型 训练 装置 | ||
1.一种语音合成方法,包括:
对待合成的第一文本进行文本编码,以获得第一合成特征;
对第一声学特征进行声学编码,以获得第二合成特征;
对所述第一合成特征、第二合成特征和预先选定的情感表述参数进行对齐处理,以获得第三合成特征;以及
对所述第三合成特征进行声学解码,以获得所述第一文本的第二声学特征。
2.如权利要求1所述的方法,其中,对所述第一合成特征、第二合成特征和预先选定的情感表达参数进行对齐处理,以获得第三合成特征,包括:
对所述第一合成特征的第一部分与所述第二合成特征进行矩阵乘运算和归一化指数函数处理,以获得对齐合成特征;
在所述第一合成特征的第二部分中嵌入所述情感表述参数,所述第二部分是所述第一合成特征中除去所述第一部分之外的部分;
针对嵌有所述情感表述参数的所述第一合成特征的第二部分、所述对齐合成特征和所述第二合成特征进行矩阵乘运算和拼接处理,以获得所述第三合成特征。
3.如权利要求2所述的方法,其中,对所述第一合成特征的第一部分与所述第二合成特征进行矩阵乘运算和归一化指数函数处理,包括:
在通道维度上切分所述第一合成特征,以获得作为所述第一部分的第一子特征和作为所述第二部分的第二子特征;
对所述第一子特征和所述第二合成特征进行矩阵乘运算,以获得第四合成特征;
对所述第四合成特征进行归一化指数函数处理,以获得所述对齐合成特征。
4.如权利要求2所述的方法,其中,在所述第一合成特征的第二部分中嵌入所述情感表述参数,包括:
基于预先获得的基础权重参数和用户输入的情感表述参数,生成情感描述矩阵;
将所述情感描述矩阵与所述第一合成特征的第二部分拼接。
5.一种语音合成模型的训练方法,包括:
设置语音合成模型中的语音合成参数为当前值,所述语音合成参数至少包括如下之一:文本编码参数、声学编码参数、声学解码参数、所述情感表述参数和用于细化所述情感表述参数粒度的基础权重参数;
利用作为训练样本的第二文本及其真实声学特征执行所述语音合成模型的语音合成,以获得所述第二文本的预测声学特征,所述语音合成模型的语音合成包括依次执行的文本编码、声学编码、对齐处理和声学解码;以及
根据所述对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征,调整所述语音合成参数的取值。
6.如权利要求5所述的方法,其中,根据所述对齐处理所产生的对齐训练特征、所述第二文本的真实声学特征和所述预测声学特征,调整所述语音合成参数的取值,包括:
根据所述第二文本的预测声学特征和真实声学特征,确定第一损失值;
根据所述对齐处理产生的对齐训练特征,确定第二损失值;以及
至少基于所述第一损失值、第二损失值,确定语音合成参数的更新值。
7.如权利要求5所述的方法,其中,所述对齐训练特征是由所述第一训练特征的至少一部分和所述第二训练特征经矩阵乘运算和归一化指数函数处理而获得的;
根据所述对齐处理产生的对齐训练特征,确定第二损失值,包括:
针对预设的调制矩阵与所述对齐训练特征进行矩阵乘运算;
计算所述矩阵乘运算的结果中各元素的绝对值;
计算所述矩阵乘运算的结果中各元素的绝对值的均值,以获得所述第二损失值;
其中,所述第二损失值用于对所述第一训练特征与所述第二训练特征的对齐曲线进行单调约束限制,所述第一训练特征是对所述第二文本进行文本编码而获得的,所述第二训练特征是对所述第二文本的真实声学特征进行声学编码而获得的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京地平线信息技术有限公司,未经北京地平线信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110400408.8/1.html,转载请声明来源钻瓜专利网。