[发明专利]歌声合成在审
申请号: | 201911156831.7 | 申请日: | 2019-11-22 |
公开(公告)号: | CN112951198A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 卢佩玲;栾剑;吴洁 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10H7/00;G10H1/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 赵腾飞 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歌声 合成 | ||
1.一种用于歌声合成的方法,包括:
接收从乐谱中提取的第一乐谱音素信息,所述第一乐谱音素信息包括第一音素以及与所述第一音素相对应的音符的音高和节拍;
基于所述第一乐谱音素信息,生成与所述第一音素相对应的基频差量和频谱参数;
通过利用所述基频差量调节所述音符的音高,获得与所述第一音素相对应的基频;以及
至少部分地基于所述基频和所述频谱参数,生成与所述第一音素相对应的声学波形。
2.根据权利要求1所述的方法,其中,所述生成与所述第一音素相对应的基频差量和频谱参数包括:
基于所述第一乐谱音素信息,生成第一向量表示;
通过时长预测器,基于所述第一向量表示来确定所述第一音素的音素时长,所述时长预测器被配置为至少在音符节拍的约束下预测音素时长;
基于所述第一音素的音素时长,将所述第一向量表示扩展为第二向量表示;以及
至少基于所述第二向量表示,生成与所述第一音素相对应的所述基频差量和所述频谱参数。
3.根据权利要求2所述的方法,其中,用于所述时长预测器的训练数据至少包括:从参考音频中提取的每个参考音素的参考音素时长以及每个参考音符的节拍。
4.根据权利要求3所述的方法,其中,所述时长预测器的训练采用第一损失函数,所述第一损失函数用于计算以下两者之间的差异:
由所述时长预测器对一个参考音素所预测的音素时长;以及
所述参考音素的参考音素时长。
5.根据权利要求4所述的方法,其中,所述时长预测器的训练还采用第二损失函数,所述第二损失函数用于计算以下两者之间的差异:
由所述时长预测器对与一个参考音符相对应的多个参考音素所预测的多个音素时长的和;以及
所述参考音符的节拍。
6.根据权利要求5所述的方法,其中,所述第一损失函数和所述第二损失函数在所述时长预测器的训练中具有不同的权重。
7.根据权利要求6所述的方法,其中,所述第一损失函数的权重小于所述第二损失函数的权重。
8.根据权利要求2所述的方法,还包括:
接收关于演唱风格的指示,
其中,所述确定所述第一音素的音素时长是进一步基于所述演唱风格的,并且所述生成与所述第一音素相对应的基频差量和频谱参数是进一步基于所述演唱风格的。
9.根据权利要求1所述的方法,还包括:
接收关于目标演唱者的音色的指示,并且
其中,所述生成与所述第一音素相对应的频谱参数是进一步基于所述目标演唱者的音色的。
10.根据权利要求2所述的方法,还包括:
接收关于第一目标演唱者的演唱风格的指示;以及
接收关于第二目标演唱者的音色的指示,并且
其中,所述确定所述第一音素的音素时长是进一步基于所述第一目标演唱者的演唱风格的,
所述生成与所述第一音素相对应的基频差量是进一步基于所述第一目标演唱者的演唱风格的,并且
所述生成与所述第一音素相对应的频谱参数是进一步基于所述第一目标演唱者的演唱风格和所述第二目标演唱者的音色的。
11.根据权利要求1所述的方法,其中,与所述第一音素相对应的所述基频差量和所述频谱参数是通过基于自注意力机制的前馈神经网络来生成的。
12.根据权利要求1所述的方法,其中,与所述第一音素相对应的所述基频差量和所述频谱参数是以非自回归的方式生成的。
13.根据权利要求1所述的方法,其中,所述乐谱是基于以下至少之一来生成的:图像乐谱数据、音频音乐数据、符号乐谱数据和文本乐谱数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911156831.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据分享方法及装置
- 下一篇:单光路系统的测距装置