[发明专利]语音克隆模型的训练方法、可读存储介质和语音克隆方法有效
申请号: | 202010476440.X | 申请日: | 2020-05-29 |
公开(公告)号: | CN111696521B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 张子宁;杨晓艳;张振杰 | 申请(专利权)人: | 新加坡依图有限责任公司(私有) |
主分类号: | G10L13/06 | 分类号: | G10L13/06;G10L13/047;G10L15/06;G10L25/30 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 徐红银 |
地址: | 新加坡玛丽娜景观*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 克隆 模型 训练 方法 可读 存储 介质 | ||
1.一种语音克隆模型的训练方法,其特征在于,包括:
将经过预处理的语料数据输入应用于语音克隆的神经网络模型,其中,所述语料数据用于训练所述神经网络模型,所述语料数据包括多个发音人的多种语言的语音数据和所述语音数据对应的文本数据;
利用所述神经网络模型的发音人嵌入模块和编码器模块分别对每个所述发音人的所述语音数据和相应的所述文本数据进行处理,生成所述发音人的语音嵌入数据和相应的所述文本数据的文本嵌入数据;
将所述文本嵌入数据与所述语音嵌入数据合并,作为所述神经网络模型的注意力机制模块的输入参数,并且将所述语音数据作为参考标准,训练所述神经网络模型;
在所述神经网络模型的损失函数满足预定值的情况下,得到应用于所述语音克隆的所述神经网络模型;
对相应的所述文本数据进行处理还包括,根据所述文本数据中各个字符的语种,相应地扩展用于表达所述字符的数组;
根据所述文本数据中各个字符的语种相应地扩展用于表达所述字符的数组还包括:
区分所述文本数据中各个字符的所述语种;
对于中文字符,在表达所述中文字符的数组后部合并与表达所述中文字符的数组的维数相同的零值数组,以及
对于英文字符,在表达所述英文字符的数组前部合并与表达所述英文字符的数组的维数相同的零值数组。
2.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,生成所述发音人的语音嵌入数据还包括:
通过所述发音人嵌入模块,对所述发音人的语音数据中的每一条语音数据计算所述发音人的声纹信息;
计算全部的所述声纹信息的均值,生成所述发音人的所述语音嵌入数据。
3.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,将所述文本嵌入数据与所述语音嵌入数据合并还包括,将表达所述语音嵌入数据的数组与每一个时间戳的表达所述文本嵌入数据的数组进行合并。
4.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,所述方法还包括对所述语料数据进行预处理,所述预处理包括:
将所述文本数据中的中文字符转换为拼音,其中拼音的四种音调通过数字表示;以及
将所述文本数据中的英文字符转换为统一码的非英文字母。
5.根据权利要求1所述的语音克隆模型的训练方法,其特征在于,所述方法还包括对所述语料数据进行预处理,所述预处理包括,在去除所述语音数据中的沉默音之后,将所述语音数据转换为梅尔频谱。
6.一种语音克隆方法,用于克隆目标发音人的声音,其特征在于,包括:
对所述目标发音人的语音数据和相应的文本数据进行处理,生成处理后的所述语音数据和文本数据;
将处理后的所述语音数据和文本数据输入已训练的语音克隆模型;以及
通过所述语音克隆模型,获取所述目标发音人的克隆语音;
其中,所述语音克隆模型采用如权利要求1至5中任一项所述的训练方法生成。
7.一种计算机可读介质,其特征在于,所述计算机可读存储介质上存储有指令,该指令在计算机上执行时使所述计算机执行根据权利要求1-5中任一项所述的语音克隆模型的训练方法。
8.一种系统,其特征在于,包括:
存储器,用于存储由系统的一个或多个处理器执行的指令,以及
处理器,用于执行所述存储器中的所述指令,以执行权利要求1至5中任一项所述的语音克隆模型的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新加坡依图有限责任公司(私有),未经新加坡依图有限责任公司(私有)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010476440.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种城市水体污染程度线上表征方法
- 下一篇:一种翻盖式带防护罩电气接线端子板