[发明专利]语音克隆模型的训练方法、可读存储介质和语音克隆方法有效
申请号: | 202010476440.X | 申请日: | 2020-05-29 |
公开(公告)号: | CN111696521B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 张子宁;杨晓艳;张振杰 | 申请(专利权)人: | 新加坡依图有限责任公司(私有) |
主分类号: | G10L13/06 | 分类号: | G10L13/06;G10L13/047;G10L15/06;G10L25/30 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 徐红银 |
地址: | 新加坡玛丽娜景观*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 克隆 模型 训练 方法 可读 存储 介质 | ||
本申请提供了一种语音克隆模型的训练方法、可读存储介质和语音克隆方法,训练方法包括:将经过预处理的语料数据输入应用于语音克隆的神经网络模型,语料数据用于训练神经网络模型,语料数据包括多个发音人的多种语言的语音数据和语音数据对应的文本数据;利用神经网络模型的发音人嵌入模块和编码器模块分别对每个发音人的语音数据和相应的文本数据进行处理,生成发音人的语音嵌入数据和相应的文本数据的文本嵌入数据;将文本嵌入数据与语音嵌入数据合并,作为注意力机制模块的输入参数,并且将语音数据作为参考标准,训练神经网络模型;在损失函数满足预定值的情况下,得到应用于语音克隆的神经网络模型。
技术领域
本申请的一个或多个实施例通常涉及语音合成技术领域,具体涉及一种语音克隆模型的训练方法、可读存储介质和语音克隆方法。
背景技术
基于深度学习的语音合成技术指的是,给定一短文本,利用神经网络生成与之相对应的一段音频。
目前可用的语音合成方法分为两类:一种是拼接法,意思是把常用的单字(或词语)由录音人录下,在语音合成时根据文本拼接起来;另一种是参数法,意思是先构建一个语音生成模型,把文字输入后无需拼接,模型会自己生成一段音频(或频谱)。基于深度学习的语音合成技术属于参数法。
目前语音合成技术致力于的难点是自然度。拼接法难以达成自然度的要求。参数法尤其是基于深度学习的方法近期有着逼近真人发音的效果。然而对于多语言的情况--主要是中文英文混杂--目前大量的方法是用一个中文语音生成模型和一个英文语音生成模型分别生成一句话的中文和英文部分,再把他们拼接起来。这样的方法自然度上难以达到要求。
在普通的语音合成技术上更进一步的是多发音人的语音合成。通常的基于深度学习的语音合成技术会利用一个专人的模型来生成某一个人的语音。这样的方法在面对需要多人语音的情景下,需要创建大量的模型,这样会占用大量的存储和计算资源。
在多发音人语音合成上更进一步的语音克隆。多发音人语音合成技术一般只能生成在模型训练时期出现过的发音人的声音。对于在产品使用过程中出现的新发音人,普通的多发音人语音合成技术是无法生成相应的语音的。语音克隆技术,指的是使用与训练一个新模型相比更少量的时间和数据(否则可以对新发音人训练一个新模型),来完成对新发音人的声音的克隆。输入任意文本,模型能够生成逼近新发音人声音的相应的音频。于是,对于语音克隆技术,除了自然度以外,还需要保证克隆的语音与新发音人声音的相似度。
目前对于语音克隆技术最大的挑战在于,如何利用更少的新发音人声音数据,和更少的准备时间(例如再训练的时间),来获得与新发音人更相似的合成语音。
现有语音克隆技术目前使用广泛的是自适应再训练,即利用新发音人的数据对模型进行自适应再训练,微调原模型。但是,这个办法对于新发音人的样本数据量的要求一般是几十到上百句,很难短时间内获得,而且自适应方法需要额外的训练时间。另外自适应方法依然需要对每个新发音人创建一个单独的模型。
发明内容
为了解决上述问题。本申请的一个或多个实施例提供一种语音克隆模型的训练方法、可读存储介质和语音克隆方法。
根据本申请的一些方面,公开一种语音克隆模型的训练方法,一种语音克隆模型的训练方法,包括:
将经过预处理的语料数据输入应用于语音克隆的神经网络模型,其中,所述语料数据用于训练所述神经网络模型,所述语料数据包括多个发音人的多种语言的语音数据和所述语音数据对应的文本数据;
利用所述神经网络模型的发音人嵌入模块和编码器模块分别对每个所述发音人的所述语音数据和相应的所述文本数据进行处理,生成所述发音人的语音嵌入数据和相应的所述文本数据的文本嵌入数据;
将所述文本嵌入数据与所述语音嵌入数据合并,作为所述神经网络模型的注意力机制模块的输入参数,并且将所述语音数据作为参考标准,训练所述神经网络模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新加坡依图有限责任公司(私有),未经新加坡依图有限责任公司(私有)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010476440.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种城市水体污染程度线上表征方法
- 下一篇:一种翻盖式带防护罩电气接线端子板