[发明专利]基于beta-VAE的多对多语音转换方法有效

专利信息
申请号: 201910268592.8 申请日: 2019-04-04
公开(公告)号: CN110047501B 公开(公告)日: 2021-09-07
发明(设计)人: 李燕萍;张成飞;许吉良;张燕 申请(专利权)人: 南京邮电大学
主分类号: G10L21/007 分类号: G10L21/007;G10L21/013
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 beta vae 语音 转换 方法
【说明书】:

发明公开了一种基于beta‑VAE的多对多语音转换方法,通过引入可调节参数β和C,完成对变分自动编码器(VAE)框架的修改,在提高隐变量解纠缠能力的同时,也改善其在瓶颈层编码能力不足的问题,实现多说话人对多说话人的语音转换。本方法解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。并且本方法解除对平行文本的依赖,训练过程不需要任何对齐操作,还可以将多个源‑目标说话人对的转换系统整合在一个转换模型中,即实现多对多的转换。

技术领域

本发明涉及多对多语音转换方法,特别是涉及一种基于beta-VAE的多对多语音转换方法。

背景技术

语音转换技术经过多年的研究,已经涌现了很多的经典转换方法,其中包括高斯混合模型(Gaussian Mixed Model,GMM)、频率弯折、深度神经网络(Deep Neural Network,DNN)以及基于单元选择的方法等。但是这些语音转换方法大多需要使用平行语料库进行训练,即源说话人和目标说话人需要发出语音内容、语音时长相同的句子,并且发音节奏和情绪等尽量一致。然而在语音转换的实际应用中,获取大量的平行语料殊为不易,甚至无法满足,此外训练时语音特征参数对齐的准确性也成为语音转换系统性能的一种制约。无论从语音转换系统的通用性还是实用性来考虑,非平行文本条件下语音转换方法的研究都具有极大的实际意义和应用价值。

基于变分自动编码器(Variational Vutoencoder,VAE)模型的语音转换方法是直接利用说话人的身份标签(one-hot)建立语音转换的系统,这种语音转换系统在模型训练时不需要对源说话人和目标说话人的语音帧进行对齐,可以解除对平行文本的依赖,已经用于非平行的语音转换模型。在传统的基于VAE的非平行语音转换中,编码器从输入语音参数中提取与说话者无关的代表语义内容的隐变量,然后解码器从隐变量中重建参数。然而由于VAE的隐变量中的过度正则化效应,这使得隐变量对语音数据的表征能力不足,并且很难拓展到更为复杂的语音数据,因此这种基于原始VAE的非平行语料转换语音质量差、噪声多等诸多不足。

发明内容

发明目的:本发明要解决的技术问题是提供一种基于beta-VAE的多对多语音转换方法,解决了现有VAE网络中隐变量对语音数据的表征能力不足并且很难拓展到更为复杂的语音数据的不足,较好地提升转换后的语音质量,有效的提高转换的性能。

技术方案:本发明所述的基于beta-VAE的多对多语音转换方法,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:

(1.1)获取非平行训练语料,包含源说话人和目标说话人;

(1.2)将所述的训练语料通过WORLD语音分析/合成模型,提取出各说话人语句频谱包络特征X、非周期特征、对数基频log f0

(1.3)将上述的频谱包络特征X、说话人标签y,输入由编码器和解码器组成beta-VAE网络进行训练,得到训练好的beta-VAE网络;

(1.4)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数;

所述转换阶段包括以下步骤:

(2.1)将源说话人语音通过WORLD语音分析/合成模型提取出每条语句的频谱包络特征Xs、非周期特征、对数基频log

(2.2)将源说话人的频谱特征Xs、目标说话人的标签yt,输入步骤(1.3)训练好的beta-VAE网络中,输出目标说话人的频谱特征Xt

(2.3)通过步骤(1.4)得到基频转换函数,将步骤(2.1)中提取出的源说话人对数基频频log转换为目标说话人的对数基频频log

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910268592.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top