[发明专利]定制音色歌声的合成方法、装置、电子设备和存储介质在审
| 申请号: | 202110076168.0 | 申请日: | 2021-01-20 |
| 公开(公告)号: | CN113781993A | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 张政臣;吴俊仪;蔡玉玉;袁鑫;宋伟;何晓冬 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10L13/08;G10L19/16;G10L25/24;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海;袁礼君 |
| 地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 定制 音色 歌声 合成 方法 装置 电子设备 存储 介质 | ||
本公开提供了一种定制音色歌声的合成方法、装置、电子设备和存储介质,涉及声音合成技术领域。其中,定制音色歌声的合成方法包括:通过说话人录音样本对第一神经网络进行训练,以得到说话人识别模型,第一神经网络输出训练结果为说话人向量样本;通过歌声清唱样本和说话人向量样本对第二神经网络进行训练,以得到清唱合成模型;将待合成的说话人录音输入至说话人识别模型,获取说话人识别模型的中间隐藏层输出的说话人信息;将待合成的清唱音乐信息和说话人信息输入至清唱合成模型,以获得合成的定制音色歌声。通过本公开的技术方案,提高了定制音色歌声合成的效率和效果,缩短了定制音色歌声合成的模型训练时间和响应时间。
技术领域
本公开涉及声音合成技术领域,尤其涉及一种定制音色歌声的合成方法、装置、电子设备和存储介质。
背景技术
随着人工智能行业的高速发展,智能语音合成技术已经渗透多个领域,被应用于:智能家居、语音导航、智能客服等业务,且人工智能合成的语音拟人度高,可达到替代人工的标准。为满足用户音色多样性的需求,现有音色定制功能也日渐成熟,可以通过用户少量语料音频训练出该用户专属音色。同时,随着虚拟偶像的知名度日渐提升,歌声合成也成为了语音合成技术的主要发展方向之一。目前现有的歌声合成技术,例如虚拟偶像所依托的“VOCALOID”合成器,主要依靠于通过真人语音数据建立语料库,再对用户提供的歌词进行字词切割,进而从语料库中调取对应的语料,最后按照用户提供的乐谱调节合成语音的节拍和音高来合成歌声。
相关技术中,由于歌声合成技术建立语料库需要用户长时间的语音数据,且调用语料库生成语音的过程需要耗费大量时间,导致歌声合成的效率低。另外,由于语料库具备体量大的特性,用户对于音色定制的需求只能通过替换整个语料库才可完成,过程繁琐且耗时长。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种定制音色歌声的合成方法、装置、电子设备和存储介质,至少在一定程度上克服由于相关技术中定制音色歌声的合成效率低的问题。
本公开的其他特性和优点将通过后续的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种定制音色歌声的合成方法,包括:通过说话人录音样本对第一神经网络进行训练,以得到说话人识别模型,第一神经网络输出训练结果为说话人向量样本;通过歌声清唱样本和说话人向量样本对第二神经网络进行训练,以得到清唱合成模型;将待合成的说话人录音输入至说话人识别模型,获取说话人识别模型的中间隐藏层输出的说话人信息;将待合成的清唱音乐信息和说话人信息输入至清唱合成模型,以获得合成的定制音色歌声。
在本公开的一个实施例中,通过说话人录音样本对第一神经网络进行训练,以得到说话人识别模型包括:将说话人录音样本划分为测试录音样本和注册录音样本,并输入至第一神经网络;注册录音样本经第一神经网络输出注册录音特征,将注册录音特征进行平均池化处理,以得到注册录音向量;测试录音样本经第一神经网络输出测试录音向量;对注册录音向量和测试录音向量进行余弦相似度计算,以获得余弦相似度结果;通过余弦相似度结果和回归函数对第一神经网络进行参数优化,至回归函数的损失值最小为止;将参数优化后的第一神经网络确定为说话人识别模型。
在本公开的一个实施例中,清唱合成模型包括持续时间模型、声学模型和声码器模型,通过歌声清唱样本和说话人向量样本对第二神经网络进行训练,以得到清唱合成模型包括:解析歌声清唱样本中的乐谱样本、歌词样本和音素时长样本;通过说话人向量样本、乐谱样本、歌词样本和音素时长样本对持续时间模型进行训练,持续时间模型的输出结果为时长预测样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110076168.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种台阶式复合地板
- 下一篇:信息生成方法、装置、电子设备和计算机可读介质





