[发明专利]基于神经网络的语音转换方法、系统、设备及存储介质在审
申请号: | 202210516906.3 | 申请日: | 2022-05-13 |
公开(公告)号: | CN114724568A | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 郭洋;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L21/013;G10L13/02;G10L13/08;G10L15/06;G10L25/03;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 康雅文 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 语音 转换 方法 系统 设备 存储 介质 | ||
1.一种基于神经网络的语音转换方法,其特征在于,包括:
获取源语音和目标说话人音色;
将所述源语音输入到内容编码器中,提取出所述源语音的语义内容,得到语义内容编码;
将所述语义内容编码和所述目标说话人音色输入到生成器中,对所述语义内容编码和所述目标说话人音色进行合成,获取目标语音,其中,语音转换模型包括所述内容编码器和所述生成器,所述语音转换模型以样本语音、样本音色进行训练得到。
2.根据权利要求1所述的基于神经网络的语音转换方法,其特征在于,所述语音转换模型还包括辨别器,所述语音转换模型以样本语音、样本音色进行训练得到,通过如下方式实现:
将所述样本语音输入到所述内容编码器中,获取所述样本语音对应的语义内容编码;
将所述样本语音对应的语义内容编码和所述样本音色输入到所述生成器中,获取转换后语音;
将所述转换后语音输入到所述辨别器中,判断所述转换后语音是否为合成,若所述辨别器判断所述转换后语音是合成的,则调整所述编码器和所述生成器的参数,并利用调整后的编码器和调整后的生成器重新进行训练,直到所述辨别器判断所述转换后语音不是合成的。
3.根据权利要求2所述的基于神经网络的语音转换方法,其特征在于,所述将所述转换后语音输入到所述辨别器中,判断所述转换后语音是否为合成,包括:
根据所述辨别器对应的预设辨别器损失函数计算出样本实际损失,若所述样本实际损失在预设损失阈值之内,则判断所述转换后语音不是合成语音,否则,判断所述转换后语音是合成语音;
其中,所述预设辨别器损失函数通过如下公式计算得到:
其中,Ladv(D)表示辨别器的训练损失函数,x表示所述样本语音,表示所述转换后语音,c表示所述样本语音对应的语义内容,表示所述样本音色,D表示所述辨别器,G表示所述生成器,D(x)表示输入为所述样本语音时所述辨别器的输出,表示输入为所述转换后语音时所述辨别器的输出。
4.根据权利要求3所述的基于神经网络的语音转换方法,其特征在于,所述语音转换模型在训练过程中的损失函数通过如下公式计算得到:
L(G,Ec)=Ladv(G,Ec)+Lfm(G,Ec)+Lcon(G,Ec),
x=G(c,z),
其中,Ladv(G,Ec)为内容编码器和生成器的训练损失函数,Lfm(G,Ec)为重构损失函数,Lcon(G,Ec)为语言内容损失函数,Ec表示所述内容编码器,Ec(x)表示输入所述样本语音时所述内容编码器的输出,表示输入所述样本语音对应的内容编码器和所述转换后语音的音色时所述生成器的输出。
5.根据权利要求1至4任一所述的基于神经网络的语音转换方法,其特征在于,所述内容编码器由若干内容编码单元依次首尾连接组成,所述内容编码单元包括第一残差网络和下采样单元。
6.根据权利要求1至4任一所述的基于神经网络的语音转换方法,其特征在于,所述生成器由若干生成单元依次首尾连接组成,所述生成单元包括上采样单元和第二残差网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210516906.3/1.html,转载请声明来源钻瓜专利网。