[发明专利]一种基于生成对抗网络的多唱歌人歌声合成方法和系统有效
申请号: | 202110863481.9 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113593588B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 赵洲;李瑞琦;黄融杰 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L19/18 | 分类号: | G10L19/18;G10L25/30;G06N3/0464;G06N3/08;G06N3/0442 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 唱歌 歌声 合成 方法 系统 | ||
1.一种基于生成对抗网络的多唱歌人歌声合成方法,其特征在于,包括如下步骤:
1)获取多唱歌人的对齐歌声训练样本集,每一个样本由源歌声音频、对齐歌词文本和唱歌人身份信息构成;
2)建立多唱歌人歌声生成对抗网络,包括多频带波形生成器、唱歌人身份特征提取网络、唱歌人条件判别器和非条件判别器;
将源歌声音频对应的Mel频谱作为多频带波形生成器的输入,并行输入的还有符合高斯分布的合成噪音,由多频带波形生成器生成四个不同频带的合成波形,再由伪正交镜像滤波器组处理得到合成波形输出;
将源歌声音频对应的真实波形与合成波形按比例输入判别器中,其中对于唱歌人条件判别器,首先对真实波形或合成波形进行编码,再在编码序列中加入唱歌人身份特征序列,最后输出唱歌人身份信息进行重建的概率;对于非条件判别器,对真实波形或合成波形作为输入,最后输出该波形属于合成波形的概率;
采用步骤1)中的对齐歌声训练样本集对生成对抗网络进行训练,根据多频带波形生成器损失、唱歌人条件判别器损失和非条件判别器损失,对多唱歌人歌声生成对抗网络进行训练;
3)针对待合成的源歌声音频,将其分割成训练样本的大小,将分割后的各个待处理样本的Mel频谱及噪声作为多频带波形生成器的输入,输出合成波形,将各个待处理样本对应的合成波形连接起来,得到最终的合成波形,再将合成波形转换成音频输出。
2.根据权利要求1所述的基于生成对抗网络的多唱歌人歌声合成方法,其特征在于,所述的步骤1)具体为:
1.1)音频预处理:针对多唱歌人音频文件,使用语音检测去除超过连续100毫秒的片段;
1.2)对预处理后的音频分割成1~11秒的样本片段,将歌词与文本对齐,标注每一个样本的唱歌人身份信息。
3.根据权利要求1所述的基于生成对抗网络的多唱歌人歌声合成方法,其特征在于,所述的多频带波形生成器由一个低频率自适应波形生成器和一个高频率自适应波形生成器构成,两个波形生成器的主体结构相同,均包括针对Mel频谱的上采样层、针对合成噪音的1维卷积层、自适应的WaveNet神经网络块、以及两个相同的ReLU激活层和1x1卷积层;所述的自适应的WaveNet神经网络块的数量及内部卷积层的感受野根据频带不同而自适应,其中:低频率自适应波形生成器有16层卷积神经网络,扩张系数每8层循环,卷积核大小为7;高频率自适应波形生成器有15层卷积神经网络,扩张系数每5层循环,卷积核大小为5;
将源歌声音频对应的Mel频谱经上采样层处理,将符合高斯分布的合成噪音经1维卷积层处理,上采样层和1维卷积层的输出结果作为WaveNet神经网络块的输入,将WaveNet神经网络块的输出再经过两层1x1卷积层及其对应的ReLU激活层,每个生成器输出两通道高频带或低频带合成波形;根据一个低频率自适应波形生成器和一个高频率自适应波形生成器即可得到两个低频带波形和两个高频带波形。
4.根据权利要求3所述的基于生成对抗网络的多唱歌人歌声合成方法,其特征在于,所述的WaveNet神经网络块包括针对噪音输入的扩张卷积层、针对Mel频谱输入的1x1卷积层、针对两者分裂后的四种张量进行处理的sigmoid-tanh激活层、以及最后用于输出的两层全连接层;前一个WaveNet神经网络块输出的两个特征信息分别作为下一个WaveNet神经网络块的输入;
在第i个WaveNet神经网络块中,将输入的噪音处理结果Xi和将Mel频谱处理结果Hi分别作为扩张卷积层和1x1卷积层的输入,分裂成四个不同的张量xai、xbi、sai、sbi,其中xai、xbi相连接并被sigmoid-tanh激活层中的tanh函数激活,sai、sbi相连接并被sigmoid-tanh激活层中的sigmoid函数激活,激活后得到的两个张量经过两个并行的全连接层后分别输出噪音处理结果Xi+1和Mel频谱处理结果Hi+1,并将其输入到第i+1个WaveNet神经网络块中继续处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110863481.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防火电缆桥架切割方法
- 下一篇:一种多台区互为备用电源的断电切换系统