[发明专利]通过使用能量分值来训练语音合成神经网络在审
申请号: | 202110631060.3 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113313183A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 蒂姆·萨利曼斯;阿列克谢·阿莱克谢耶维奇·格里岑科 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 使用 能量 分值 训练 语音 合成 神经网络 | ||
1.一种用于训练神经网络的方法,所述神经网络具有多个参数并且被配置为通过使用条件文本输入来生成用于定义音频示例的音频输出,
其中,所述神经网络被配置为接收包括条件文本输入和噪声输入的生成性网络输入,并且处理所述生成性网络输入以生成音频输出,所述音频输出包括在多个输出时间步的每一个处的相应音频样本,以及
其中,所述训练包括:
获得训练示例,所述训练示例包括训练条件文本输入和相应的真值(ground-truth)音频输出;
通过对多个噪声输入中的每一个噪声输入,根据所述多个参数的当前值使用所述神经网络处理包括所述训练条件文本输入和所述噪声输入的训练生成性输入以生成相应的预测音频输出,来生成用于所述训练示例的多个预测音频输出;
确定用于表征在所述真值音频输出和所述多个预测音频输出之间的距离的估计能量分值,包括:
对于所述多个预测音频输出中的第一预测音频输出,根据距离度量来计算在所述第一预测音频输出与所述真值音频输出之间的距离;和
对于所述第一预测音频输出以及所述多个预测音频输出中的第二预测音频输出,根据所述距离度量,来计算在所述第一预测音频输出和所述第二预测音频输出之间的距离;以及
根据所述估计能量分值,确定对所述多个参数的当前值的更新。
2.如权利要求1所述的方法,其中,所述估计能量分值等于:
2d(xi,yi)-d(yi,y′i),
其中,d是所述距离度量,xi是所述真值音频输出,yi是所述第一预测音频输出,以及yi'是所述第二预测音频输出。
3.如权利要求2所述的方法,其中,根据所述估计能量分值确定对所述多个参数的当前值的更新包括:根据用于表征跨多个训练示例的组合能量分值的损失函数来确定所述更新,其中,所述损失函数为:
其中,M是训练示例的数量。
4.如权利要求1所述的方法,其中,所述距离度量是负定的。
5.如权利要求1所述的方法,其中,计算在第一音频输出和第二音频输出之间的距离包括:
根据频谱图距离度量,计算在对应于所述第一音频输出的频谱图和对应于所述第二音频输出的频谱图之间的距离。
6.如权利要求5所述的方法,其中,所述频谱图距离度量是一个或多个距离函数的线性组合,所述一个或多个距离函数中的每一个的形式是或其中,xi是所述第一音频输出,xj是所述第二音频输出,以及s(x)是x的频谱图。
7.如权利要求6所述的方法,其中,α∈(0,2]以及β∈(0,α]。
8.如权利要求7所述的方法,其中,所述频谱图距离度量为:
其中,k是频谱图的特定窗口长度,K是频谱图的窗口长度的集合,t是频谱图的时间点,是在时间点t处具有窗口长度k的音频输出x的频谱图的值,以及αk是学习到的或预定的权重值。
9.如权利要求7所述的方法,其中,所述频谱图距离度量为:
其中,k是频谱图的特定窗口长度,K是频谱图的窗口长度的集合,t是频谱图的时间点,是在时间点t处具有窗口长度k的音频输出x的频谱图的值,以及αk是学习到的或预定的权重值。
10.如权利要求8所述的方法,其中,K是几何间隔的窗口长度序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110631060.3/1.html,转载请声明来源钻瓜专利网。