[发明专利]一种基于对比学习和生成对抗网络的零样本通用声码器方法在审
| 申请号: | 202211192592.2 | 申请日: | 2022-09-28 |
| 公开(公告)号: | CN115662451A | 公开(公告)日: | 2023-01-31 |
| 发明(设计)人: | 汤步洲;李婉婷;陈屹婷 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
| 主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L13/04;G10L25/24;G10L25/30;G06N3/0475;G06N3/0464;G06N3/088 |
| 代理公司: | 深圳市添源创鑫知识产权代理有限公司 44855 | 代理人: | 朱丽萍 |
| 地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 对比 学习 生成 对抗 网络 样本 通用 声码 方法 | ||
本发明提供了一种基于对比学习和生成对抗网络的零样本通用声码器方法,包括以下步骤:步骤1,将目标合成的梅尔谱输入模型并对值求对数进行变换;步骤2,将输入的梅尔谱输入说话人编码器,得到说话人编码表示;步骤3,将步骤1中输入的梅尔谱与步骤2中得到的说话人编码表示输入生成器,在经过对抗训练的生成模块中经过多次上采样与卷积,最后生成模块输出合成的人耳可听的波形。本发明的有益效果是:本发明在基于生成对抗网络的声码器上进行融合说话人表示的工作是对目前通用声码器工作的补充,提供了一种基于对比学习与说话人编码的零样本通用声码器方法。
技术领域
本发明涉及语音合成技术领域,尤其涉及一种基于对比学习和生成对抗网络的零样本通用声码器方法。
背景技术
随着人工智能的发展与智慧城市、智能家居的普及,语音合成越来越多地出现在人们地生活中,因此波形的生成与建模,也是最近十分需要但又具有很大挑战性的任务。
目前已经有大量的研究证明声码器在使用单个说话者话语进行训练时在生成速度和音频保真度方面具有卓越的性能。然而,一些模型在多个领域,如多说话人、多语言或多风格语音等,生成表现自然的声音时仍然面临困难。这些模型的能力可以通过模型在多个说话者的数据上训练时的音质和生成训练集中不存在的音频的音质来进行评估。可以在各种域中生成高保真音频的声码器,可以应对无论输入是在训练期间遇到还是来自训练集外的情况,通常称为通用声码器。经过神经网络声码器技术的成熟,从基于因果卷积的声码器WaveNet这一类的自回归声码器,到基于生成对抗网络的声码器,通过模型机构的不断优化以及损失函数的调整等方法,新近的声码器已经逐渐实现了合成质量与合成速度的平衡。SOTA的声码器已经一定程度上地提高了对于数据集外声音的通用性,但由于不同的个体、人群之间的音色特征差异较大,声码器在合成数据集外声音时,仍然存在质量下降,机械声强,音频的高频细节恢复较差的问题。因此,通用声码器仍然是一个值得研究的任务。
发明内容
本发明提供了一种基于对比学习和生成对抗网络的零样本通用声码器方法,包括以下步骤:
步骤1,将目标合成的梅尔谱输入模型并对值求对数进行变换。
步骤2,将输入的梅尔谱输入说话人编码器,得到说话人编码表示。
步骤3,将步骤1中输入的梅尔谱与步骤2中得到的说话人编码表示输入生成器,在经过对抗训练的生成模块中经过多次上采样与卷积,最后生成模块输出合成的人耳可听的波形。
作为本发明的进一步改进,在所述步骤1中,要对输入的梅尔谱数值进行归一化,再将归一化后的梅尔谱输入模型。
作为本发明的进一步改进,在所述步骤2中,说话人编码器通过无监督方法对梅尔谱中隐含的说话人特征信息进行编码,利用预训练的对比学习方法训练的残差网络,对梅尔谱进行学习与编码表示。
作为本发明的进一步改进,在所述步骤2中,说话人编码器包括对说话人特征进行抽取的34层残差网络、对说话人特征进行整合的池化层、线性层、激活层以及与聚合各个帧特征的沿时间方向的平均池化层,具体还包括如下步骤:
步骤211:将输入梅尔谱经过残差网络进行特征提取,其中残差网络包含了16个残差块,进行特征提取与下采样,得到二维的说话人特征。
步骤212:得到的二维说话人特征进行平均池化,得到全局特征。
步骤213:将步骤212得到的全局特征经过线性层进行映射,得到映射后的说话人特征。
步骤214:将步骤213得到的说话人特征沿时间轴方向做平均池化,得到最终的一维的说话人编码表示。
作为本发明的进一步改进,在所述步骤2中,引入了对比学习方法来对说话人编码器进行预训练,具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211192592.2/2.html,转载请声明来源钻瓜专利网。





