[发明专利]一种音色克隆方法、系统、装置及计算机可读存储介质有效

申请号：	202110408975.8	申请日：	2021-04-16
公开（公告）号：	CN112992162B	公开（公告）日：	2021-08-20
发明（设计）人：	黄一鸣;李一夫;陈哲乾	申请（专利权）人：	杭州一知智能科技有限公司
主分类号：	G10L19/16	分类号：	G10L19/16;G10L25/30
代理公司：	杭州智财黑马知识产权代理事务所(普通合伙) 33388	代理人：	张勇
地址：	311215 浙江省杭州市萧山***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音色克隆方法系统装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种音色克隆方法、系统、装置及计算机可读存储介质，方法包括以下步骤：制作多说话人数据集并处理；训练对齐模型；制作目标说话人数据集并处理；训练多说话人语音合成模型；训练多说话人声码器模型；获取具有目标说话人音色的目标人语音合成模型；将待合成文本输入至目标人语音合成模型完成语音合成。本发明的有益效果是：目标说话人的风格和音色能够被更好的学习；可以通过指定韵律标签的方式来指定韵律节奏；使用时长预测模型来进行发音序列与频谱序列的对齐，加快语音生成的推理速度；在解码阶段添加音高和能量的预测和编码，目标人语音合成模型添加了音高和能量的预测与编码，有效的提高语音合成的效果。

技术领域

本发明属于语音合成领域，尤其涉及一种音色克隆方法、系统、装置及计算机可读存储介质。

背景技术

传统的语音合成方法需要在专业录音设备和环境中采集大量的语音合成数据，才可以得到具有语音合成的能力，数据整体制作时间周期长，数据采集成本高。目前还存在一种录制少量语音合成数据，通过音色克隆的方法进行语音合成的方式，但该方式对目标说话人的音色还原效果差，且对不同的目标说话人均需要训练专门的声纹模型，整个计算和部署流程繁琐，需要大量的成本投入。

发明内容

本发明主要解决了传统的语音方法需要大量采集语音数据或是合成的语音与目标说话人音色差别过大，过程繁琐的问题，提供了一种利用多说话人数据集训练得到多说话人语音合成模型，再利用目标说话人数据集对多说话人语音合成模型进行微调训练得到具备目标说话人音色的目标人语音合成模型，只需采集少量目标人语音数据，目标人语音合成快速，所需成本投入较低的一种音色克隆方法、系统、装置及计算机可读存储介质。

本发明解决其技术问题所采用的技术方案是，一种音色克隆方法，包括以下步骤：

S1：制作多说话人数据集并处理；

S2：利用多说话人数据集训练对齐模型；

S3：制作目标说话人数据集并处理；

S4：利用多说话人数据集训练多说话人声码器模型；

S5：利用多说话人数据集训练多说话人语音合成模型；

S6：利用目标说话人数据集和多说话人语音合成模型获取具有目标说话人音色的目标人语音合成模型；

S7：将待合成文本输入至目标人语音合成模型进行语音合成任务。

利用多说话人数据集进行多说话人语音合成模型的训练，使得多说话人语音合成模型中包含多中音色，在获得目标说话人数据集后，生成的目标人语音合成模型能够更好的学习说话人的风格和音色。

作为上述方案的一种优选方案，所述S1包括以下步骤：

S11：制作录音文本；

S12：选择多个录音人在标准录音环境下根据录音文本进行录音；