[发明专利]歌声合成在审
申请号: | 201911156831.7 | 申请日: | 2019-11-22 |
公开(公告)号: | CN112951198A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 卢佩玲;栾剑;吴洁 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10H7/00;G10H1/00 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 赵腾飞 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 歌声 合成 | ||
本公开提供了用于歌声合成的方法和装置。可以接收从乐谱中提取的第一乐谱音素信息,所述第一乐谱音素信息包括第一音素以及与所述第一音素相对应的音符的音高和节拍。可以基于所述第一乐谱音素信息,生成与所述第一音素相对应的基频差量和频谱参数。可以通过利用所述基频差量调节所述音符的音高,获得与所述第一音素相对应的基频。可以至少部分地基于所述基频和所述频谱参数,生成与所述第一音素相对应的声学波形。
背景技术
歌声合成(SVS:Singing Voice Synthesis)是用于基于包括例如歌词、节奏、音高等信息的乐谱来生成虚拟歌声的技术。歌声合成可以包括基于乐谱来预测声学特征,并进而基于声学特征来生成语音波形。歌声合成旨在自动地生成模拟真实人类的演唱的歌声
发明内容
提供本发明内容以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
本公开的实施例提供了用于歌声合成的方法和装置。可以接收从乐谱中提取的第一乐谱音素信息,该第一乐谱音素信息可以包括第一音素以及与该第一音素相对应的音符的音高和节拍。可以基于第一乐谱音素信息,生成与该第一音素相对应的基频差量和频谱参数。可以利用所述基频差量调节所述音符的音高,以获得与所述第一音素相对应的基频。可以至少部分地基于该基频和频谱参数,生成与所述第一音素相对应的声学波形。
应当注意,以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式,并且本公开旨在包括所有这些方面和其等同变换。
附图说明
以下将结合附图描述所公开的多个方面,这些附图被提供用以说明而非限制所公开的多个方面。
图1示出了现有的示例性TTS系统架构。
图2示出了根据本发明的实施例的解析乐谱的示例性过程。
图3示出了根据本发明的实施例的示例性SVS系统架构。
图4示出了根据本发明的实施例的生成乐谱的示例性过程。
图5示出了根据本发明的实施例的乐谱编码器的示例性架构。
图6示出了根据本发明的实施例的频谱解码器的示例性架构。
图7示出了根据本发明的实施例的歌声合成的示例性应用场景。
图8示出了根据本发明的实施例的基于乐谱来进行歌声合成的示例性过程。
图9示出了根据本发明的实施例的对声学特征预测器的示例性训练过程。
图10示出了根据本发明的实施例的用于歌声合成的示例性方法的流程图。
图11示出了根据本发明的实施例的用于歌声合成的示例性装置的框图。
图12示出了根据本发明的实施例的用于歌声合成的示例性装置的框图。
具体实施方式
现在将参考多种示例性实施方式来讨论本公开。应当理解,这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例,而并非教导对本公开的范围的任何限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911156831.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据分享方法及装置
- 下一篇:单光路系统的测距装置