[发明专利]一种音色克隆方法、系统、装置及计算机可读存储介质有效
申请号: | 202110408975.8 | 申请日: | 2021-04-16 |
公开(公告)号: | CN112992162B | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 黄一鸣;李一夫;陈哲乾 | 申请(专利权)人: | 杭州一知智能科技有限公司 |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L25/30 |
代理公司: | 杭州智财黑马知识产权代理事务所(普通合伙) 33388 | 代理人: | 张勇 |
地址: | 311215 浙江省杭州市萧山*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音色 克隆 方法 系统 装置 计算机 可读 存储 介质 | ||
1.一种音色克隆方法,其特征是:包括以下步骤:
S1:制作多说话人数据集并处理;
S2:利用多说话人数据集训练对齐模型;
S3:制作目标说话人数据集并处理;
S4:利用多说话人数据集训练多说话人声码器模型;
S5:利用多说话人数据集训练多说话人语音合成模型;
S6:利用目标说话人数据集和多说话人语音合成模型获取具有目标说话人音色的目标人语音合成模型;
S7:将待合成文本输入至目标人语音合成模型进行语音合成任务;
所述步骤S4中,对多说话人语音合成模型进行训练时,利用音素序列与韵律序列混合编码网络获取韵律信息, 在Skip Encoder跳跃编码网络中添加韵律信息获得第一阶段编码信息,第一阶段编码信息作为音高预测网络和能量预测网络的输入,预测当前的音高信息和能量信息,预测得到的音高信息和能量信息由音高编码网络和能量编码网络进行编码,获得第二阶段编码信息,将第一阶段编码信息和第二阶段编码信息进行相加后送入Decoder解码网络进行解码。
2.根据权利要求1所述的一种音色克隆方法,其特征是:所述S1包括以下步骤:
S11:制作录音文本;
S12:选择多个录音人在标准录音环境下根据录音文本进行录音;
S13:基于录音和录音文本进行发音一致性校对,人工标注发音序列,添加韵律标签;
S14:提取各个录音对应的梅尔频谱特征、音高特征、能量信息,并对发音序列进行编码。
3.根据权利要求1所述的一种音色克隆方法,其特征是:所述步骤S3包括以下步骤:
S31:录取目标说话人朗读指定文本的音频以及文本对应的人工标注发音序列与韵律标签;
S32:提取音频的梅尔频谱特征、音高特征和能量特征;
S33:使用对齐模型获取发音序列的时长信息。
4.根据权利要求1所述的一种音色克隆方法,其特征是:所述多说话人语音合成模型包括音素序列与韵律序列混合编码网络、说话人信息编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络、能量预测网络、音高编码网络、音高预测网络和Decoder解码网络。
5.根据权利要求1所述的一种音色克隆方法,其特征是:所述多说话人声码器模型为MultiBandMelgan声码器。
6.根据权利要求4所述的一种音色克隆方法,其特征是:所述步骤S6中,对多说话人语音合成模型进行finetune微调训练,训练时固定多说话人语音合成模型中的音素序列与韵律序列混合编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络和音高编码网络,令说话人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络参与训练。
7.一种音色克隆系统,其特征是:包括:
多说话人数据采集与存储模块,用于制作多说话人数据集并进行存储;
目标说话人数据采集模块,用于采集目标说话人音频信息生成目标说话人数据集;
第一训练模块,用于基于多说话人数据集训练对齐模型;
第二训练模块,用于基于多说话人数据集训练多说话人声码器模型;对多说话人语音合成模型进行训练时,利用音素序列与韵律序列混合编码网络获取韵律信息, 在SkipEncoder跳跃编码网络中添加韵律信息获得第一阶段编码信息,第一阶段编码信息作为音高预测网络和能量预测网络的输入,预测当前的音高特征和能量特征,预测得到的音高特征和能量特征由音高编码网络和能量编码网络进行编码,获得第二阶段编码信息,将第一阶段编码信息和第二阶段编码信息进行相加后送入Decoder解码网络进行解码;
第三训练模块,用于基于多说话人数据集训练多说话人语音合成模型;
目标人语音合成模型生成模块,用于基于目标说话人数据集和多说话人语音合成模型生成目标人语音合成模型;
合成模块,用于根据待合成文本和目标人语音合成模型生成目标人语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州一知智能科技有限公司,未经杭州一知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110408975.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种坐立转换训练辅助装置
- 下一篇:输送设备