[发明专利]一种用于非对称语料的语音转换方法在审
申请号: | 202110558455.5 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113380264A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 简志华;朱雅楠;于佳祺;韦凤瑜;徐嘉;游林;汪云路 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G10L21/013 | 分类号: | G10L21/013 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙江省杭州市杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 对称 语料 语音 转换 方法 | ||
本发明用于非对称语料的语音转换方法:从训练数据集中所有语音段的集合中采样得到声学矢量序列,编码器生成潜矢量序列;得到潜矢量序列后,通过IN算法得到语音的内容信息;将语音内容信息从潜矢量中减去,得说话人的个性特征;解码器对分离后的内容信息表示与说话人个性特征表示进行合成,生成语音;参数更新;判别器用对抗损失表示;将待转换的源语音与目标语音分别作为已经训练好的编码器的输入,编码器提取源语音的内容信息和目标语音的个性特征,再将两者通过已经训练好的解码器进行合成,生成保留源语音的内容信息并具有目标说话人个性特征的语音。
技术领域
本发明属于语音处理技术领域,具体涉及一种用于非对称语料的语音转换方法。
背景技术
语音转换技术是指将源说话人的身份信息转换为目标说话人的身份信息,同时保持语音内容不变,在医疗服务、保密通信及生活娱乐的方面有着非常重要的应用。目前,语音转换大致可以分为两类,一类是受监督的,另一类是无监督的。受监督的语音转换已经取得了较好的成果,但是需要源与目标之间帧级对齐,也即需要对称的语料进行训练。如果源语音与目标语音不对称,也即语义内容不同,它们两者之间就有较大的差异,就无法达到较好的转换效果,这就限制了语音转换的应用范围。
中国专利号201310146293.X公开了一种基于自适应算法的非对称语料库条件下的语音转换方法,首先通过预先准备的参考说话人语句训练得到背景说话人模型;然后通过MAP自适应技术,将源说话人和目标说话人的语句分别训练得到源说话人和目标说话人模型;接着通过自适应源说话人和目标说话人模型中的均值和方差训练得到语音转换函数,分别提出了高斯归一化和均值转换的方法,为了进一步提高转换效果,进而提出了高斯归一化和均值转换融合的方法。该专利技术方案虽有其优点,但其语音转换性能有待提高。
发明内容
针对上述现状,本发明提出了一种采用表示分离生成对抗网络(RepresentationSeparation Generative Adversarial Network,RS-GAN)的语音转换方法,在RS-GAN网络中使用编码器将语音的内容信息与说话人信息分离。在训练阶段,通过编码器对语音进行特征提取,并在编码器之后使用实例归一化(Instance Normalization,IN)将语音中包含的说话人个性特征去除,从而只保留语音中的内容信息。在转换阶段,将源语音与目标语音输入编码器,分别提取到源语音的内容信息与目标语音的个性特征,通过解码器将其合成便可得到转换后的语音。
本发明采取如下技术方案:
一种用于非对称语料的语音转换方法,其按如下步骤:
一、训练阶段:
1.1令X为从训练数据集χ中所有语音段的集合中采样得到的声学矢量序列,enc为编码器,dec为解码器,则编码器生成的潜矢量序列Z为
Z=enc(X) (1)
得到潜矢量序列Z后,通过IN算法将潜矢量中包含的说话人个性特征归一化,从而去除说话人的个性特征,得到语音的内容信息Zcont
Zcont=IN(Z) (2)
假设p(Zcont|X)是具有单位方差且条件独立的高斯分布,即
p(Zcont|X)=N(Zcont;0,I) (3)
其中,N表示高斯分布,I表示单位方差;
将语音内容信息Zcont从潜矢量Z中减去,可得说话人的个性特征Zsty表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110558455.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种包埋颗粒及其制备方法与应用
- 下一篇:一种高压直流输电线路单端量保护方法