[发明专利]一种语音合成模型的训练方法及装置有效
| 申请号: | 202110259482.2 | 申请日: | 2021-03-10 |
| 公开(公告)号: | CN113053353B | 公开(公告)日: | 2022-10-04 |
| 发明(设计)人: | 黄选平;马达标 | 申请(专利权)人: | 度小满科技(北京)有限公司 |
| 主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 尹秀 |
| 地址: | 100193 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 合成 模型 训练 方法 装置 | ||
本发明实施例中一种语音合成模型的训练方法及装置,包括:对历史语音合成模型进行训练,得到多说话人模型;获取当前训练数据中的当前说话人ID和当前输入文本,其中,当前输入文本的数据量少于多说话人模型在训练过程中历史输入文本的数据量,当前输入文本的音素以韵母为单位;基于多说话人模型、当前说话人ID和当前输入文本对当前语音合成模型进行训练。上述的训练过程中,由于多说话人模型已经预先经过训练可以提高训练过程中的准确度,即使在输入文本数据量减少时,由于输入文本以韵母为单位,输入文本的音素数量不会减少,进一步保证了语音识别的精度,避免了现有技术中由于输入文本包含的因素音素特征少,导致语音合成的精度低的问题。
技术领域
本发明涉及智能语音技术领域,尤其涉及一种语音合成模型的训练方法及装置。
背景技术
语音合成是从文本到语音的过程,文本输入到声学模型得到声学特征,再输入到合成器,得到音频,其中,现有技术中采用高并行声学模型FPUTS(Fully Parallel UFANS-based End-to-End Text-to-Speech System)进行语音合成,FTPUS声学模型的示意图如图1所示,其中,编码器,对齐模块,解码器均为神经网络构成。一般的生成音频过程为:从说话人的ID(例如0-100)得到说话人矢量(是一个N维的向量,不同说话人有不同的说话人矢量);说话人矢量和文本输入编码器进行编码;说话人和文本输入对齐模块得到音频的发音时长信息(这个模块决定了最终音频的发音时长,说话语速等);发音时间信息以及编码器出来的编码进入到解码器进行解码,得到最终音频。
FPTUS模型需要预先进行训练,训练完成后,才可以进行语音识别,针对PTPUS的训练过程如图2所示,第一步是训练对齐模块。见图2(a)。此时模型主要结构为说话人矢量,编码器,对齐模块和一个结构非常简单的解码器(解码器结构简单对训练对齐模块非常重要)。配合数据进行训练得到训练好的对齐模块;第二步是训练说话人矢量,编码器和解码器。见图2(b),模型主要构成为编码器,从第一步中训练好的对齐模块,(复杂以及最终的)解码器。此处对齐模块固定,不参与训练。
发明人对FPTUS模型的训练过程进行研究发现,当输入文本较短时,由于输入文本的数据量少,在以字为单位划分音素时,输入文本包含的音素特征少,导致训练过程中,语音合成的精度低。
发明内容
有鉴于此,本发明提供了一种语音合成模型的训练方法及装置,用以解决现有技术中对FPTUS模型的训练过程中,当输入文本较短时,由于输入文本的数据量少,在以字为单位划分音素时,输入文本包含的音素特征少,导致语音合成的精度低的问题。具体方案如下:
一种语音合成模型的训练方法,包括:
对历史语音合成模型进行训练,得到多说话人模型;
获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;
基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。
上述的方法,可选的,对历史语音合成模型进行训练,得到多说话人模型,其中,所述历史语音合成模型包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,训练过程包括:
获取训练数据中的历史说话人ID和历史输入文本;
基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于度小满科技(北京)有限公司,未经度小满科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110259482.2/2.html,转载请声明来源钻瓜专利网。





