[发明专利]基于半监督特征学习的语音转换方法在审
申请号: | 202111277502.5 | 申请日: | 2021-10-30 |
公开(公告)号: | CN114023343A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 李学龙;张强;陈穆林 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L15/06 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 常威威 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 特征 学习 语音 转换 方法 | ||
本发明提供了一种基于半监督特征学习的语音转换方法。首先,利用开源语音包librosa对训练集中的语音数据进行预处理,得到扩展的声学特征段集合,并采用广义端到端损失编码器预先提取得到表示说话人身份信息的声学特征;然后,构建语音转换网络,包括变分自编码器、解码器和后置网络,并利用构建的数据集合对网络进行训练,其中,网络损失设置采用监督信息下的均方误差约束;最后,利用训练好的网络对待转换的源语音数据和目标语音数据进行处理,得到转换后的语音数据。本发明以变分自编码器结构为基础,引入半监督特征学习,能够准确提取到说话人身份信息,解决了在非并行语料数据下多说话人之间的语音转换问题,具有很好的泛化能力。
技术领域
本发明属深度学习领域,具体涉及一种基于半监督特征学习的语音转换方法。
背景技术
语音转换方法旨在实现将源说话人的音色转化为目标说话人的音色,同时保持源说话人的语言内容不变。语音转换系统最通用的做法是:仅提供一条目标说话人语音数据和一条源说话人语音数据,系统自动从源说话人数据提取语言内容,从目标说话人数据提取说话人嵌入(即说话人音色信息),将这两种信息重新结合生成新的目标语音。在语音转换中,如果数据来自于不同说话人,且语言内容不同,则这种数据属于非平行语料数据。因其成本低、易获取、贴近真实应用场景等特性,非平行语料数据在语音转换中得到广泛应用。目前,在非平行语料数据中,由于转换的目标说话人与源说话人之间语言内容不同,需要保持语言内容不变的同时,将源说话人音色转换为目标说话人的音色。因此利用非并行语料数据做转换时会面临两个挑战:首先,若在非并行语料数据集上建立模型,很难准确学习从源说话人到目标说话人的映射,导致语音转换效果不佳的问题;其次,对于多说话人之间的语音转换,如果参加测试的说话人语音数据从未出现在训练数据集中,则转换出的语音效果无论在自然度还是相似度方面都偏低。以上两点成为非并行语音转换亟待解决的问题。
为准确学习源说话人与目标说话人之间的映射关系,Takuhiro等人在文献“T.Kaneko and H.Kameoka,CycleGAN-VC:Non-parallel Voice Conversion UsingCycle-Consistent Adversarial Networks,European Signal Processing Conference(EUSIPCO),pp.2100-2104,2018.”中首次将CycleGAN(循环生成对抗网络)方法引入语音转换任务。循环生成对抗网络解决了源域与目标域难以映射的问题。该方法以对抗损失和循环一致性损失为准则,实现从源说话人到目标说话人的音色转换。
为实现任意说话人之间的语音转换,Chou等人在文献“Ju-chieh Chou,Cheng-chieh Yeh,and Hung-yi Lee,One-Shot Voice Conversion by Separating Speaker andContent Representations with Instance Normalization,in Proc.Interspeech,pp.664-668,2019.”中提出利用变自分编码器进行语音转换的方法。这种方法以均方误差为准则,利用变分自编码器结构,在输入端利用两个编码器通过无监督学习分别提取语音中的语言内容和说话人嵌入,并在输出端使用一个解码器,将语言内容和说话人嵌入进行结合,从而生成新的语音,即目标说话人语音。由于编码器通过训练学习到了分离语言内容与说话人嵌入信息的能力,若给定目标说话人语音数据与源说话人语音数据,内容编码器便可自动的从源说话人语音中提取语言内容表示,说话人编码器自动从目标语音中提取说话人嵌入表示,在解码器端,语言内容表示和说话人嵌入表示被结合为新的语音数据。这种方法可以扩展到多说话人之间的语音转换。
上述两种方法解决了非并行语音转换存在的部分问题,但仍存在局限性。第一种方法虽然可以准确地学习从源说话人到目标说话人的映射,但是通常只能做两个说话人之间的语音转换,且训练过程复杂,容易出现梯度骤降为零的情况,无法拓展到多说话人之间的语音转换。第二种方法,尽管变分自编码器结构简单易于实现,但是其提取出的语言内容表示会包含少量说话人嵌入信息,最终导致语音转换的结果相似度不佳。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111277502.5/2.html,转载请声明来源钻瓜专利网。