[发明专利]语音合成模型的训练方法、装置、设备及存储介质在审
申请号: | 202310152562.7 | 申请日: | 2023-02-16 |
公开(公告)号: | CN116110367A | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 缪陈峰;陈闽川;马骏;王少军;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047;G06N3/08 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 李小东 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 模型 训练 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术领域,公开了一种语音合成模型的训练方法、装置、设备及存储介质。该方法包括:构建语音合成模型,语音合成模型的网络结构包括第一可逆层以及至少一个第二可逆层,第一可逆层包括可逆卷积模块和仿射耦合模块,第二可逆层包括仿射耦合模块;获取音频数据,根据语音合成模型的网络结构对音频数据进行分解处理,得到与各层对应的子音频数据;将各子音频数据依次输入语音合成模型中,输出各层与子音频数据对应的预测值;根据各层的预测值计算损失函数,利用损失函数对语音合成模型进行训练,直至损失函数收敛,得到训练好的语音合成模型。通过上述方式,本发明能够提高训练效率和训练效果。
技术领域
本发明涉及人工智能技术领域,特别是涉及一种语音合成模型的训练方法、装置、设备及存储介质。
背景技术
神经网络声码器也可称为神经声码器或声码器等,属于语音合成模型的一种,在语音合成(TTS,Text To Speech)中负责将帧级别的特征谱转化为实际发声的语音,是语音合成中至关重要的环节。
相较于传统的声码器,采用基于标准化流的神经级网络声码器如(Waveglow、flowwavenet)等,合成的音频音质有大幅提高,因此备受推崇。但是,由于这类声码器模型都是基于GLOW框架,而GLOW框架使得声码器训练收敛时间长,训练效率低,并且每个可逆变换的输入输出的维度必须保持一致,存在网络瓶颈的缺陷。
发明内容
本发明提供一种语音合成模型的训练方法、装置、设备及存储介质,能够提高训练效率和训练效果。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种语音合成模型的训练方法,包括:
构建语音合成模型,所述语音合成模型的网络结构包括第一可逆层以及至少一个第二可逆层,所述第一可逆层包括可逆卷积模块和仿射耦合模块,所述第二可逆层包括仿射耦合模块;
获取音频数据,根据所述语音合成模型的网络结构对所述音频数据进行分解处理,得到与各层对应的子音频数据;
将各所述子音频数据依次输入所述语音合成模型中,输出各层与所述子音频数据对应的预测值;
根据各层的所述预测值计算损失函数,利用所述损失函数对所述语音合成模型进行训练,直至所述损失函数收敛,得到训练好的语音合成模型。
根据本发明的一个实施例,所述获取音频数据,根据所述语音合成模型的网络结构对所述音频数据进行分解处理,得到与各层对应的子音频数据包括:
统计所述语音合成模型的网络结构中的层数;
将所述音频数据的采样点按照所述层数进行分解并按照预设间隔选取所述采样点,形成采样点集,得到与各模块对应的子音频数据。
根据本发明的一个实施例,所述将各所述子音频数据依次输入所述语音合成模型中,输出各层与所述子音频数据对应的预测值包括:
将与所述第一可逆层对应的所述子音频数据输入所述语音合成模型中,在所述第一可逆层中,通过所述可逆卷积模块对输入的所述子音频数据进行通道混合处理,通过仿射耦合模块对所述可逆卷积模块的输出分别进行仿射变换处理和特征提取处理,对应输出第一预测值和第一隐变量;
将与所述第二可逆层对应的所述子音频数据输入所述语音合成模型中,通过仿射耦合模块对输入数据分别进行仿射变换处理和特征提取处理,对应输出第二预测值和第二隐变量。
根据本发明的一个实施例,所述将与所述第二可逆层对应的所述子音频数据输入所述语音合成模型中,通过仿射耦合模块对输入数据分别进行仿射变换处理和特征提取处理,对应输出第二预测值和第二隐变量包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310152562.7/2.html,转载请声明来源钻瓜专利网。