[发明专利]一种用于任意源和目标语音之间的语音转换方法在审
申请号: | 201710186569.5 | 申请日: | 2017-03-27 |
公开(公告)号: | CN107221321A | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 简志华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/10 |
代理公司: | 杭州千克知识产权代理有限公司33246 | 代理人: | 周希良,张婵婵 |
地址: | 312500 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 任意 目标 语音 之间 转换 方法 | ||
技术领域
本发明属于语音转换技术领域,具体涉及一种用于任意源和目标源之间的语音转换方法。
背景技术
语音信号是语言的声音信号,负载着一定的语言意义,其中包含了多种信息,比如说话人的身份信息、情感状态和语音内容等。
语音转换,是一种用目标说话人的身份信息来替换源说话人的身份信息,但是保持语音内容不变的一种技术。在许多重要的应用方面都涉及语音转换功能:情感识别与转换技术方面,文字信息格式到语音信息格式转换的文语转换系统(TTS)方面,谱恢复方法方面,音频带宽扩展技术方面及与帮助发音障碍的人重构语音等。
目前,语音转换的方法有很多种,而最常用的比较经典的方法为以下两种:一类是基于统计方法;一类是基于稀疏表示。
在基于统计参数的语音转换方法中,高斯混合模型被应用得最广,在高斯混合模型算法中,需要用到转换函数来实现加权求平均值,而转换函数的参量用最小均方误差准则 (Minimum Mean-Square Error,MMSE)或者最大似然准则(maximum likelihood,ML)估计。这种转换方法虽然简单直观,且效果很好,但存在缺点一是需要大量平行语料进行训练,否则会产生过拟合现象,二是转换后的语音频谱过于平滑,不够自然。
在基于稀疏表示的语音转换方法中,由于稀疏表示被广泛的应用于信号处理中,基于样本的语音转换方法也得到了很大的发展。2001年D.Seung等提出了非负矩阵分解 (Non-negative matrix factorization,NMF)语音转换算法,该方法首先将源说话人语音稀疏表示化,即表示为语音字典和激励矩阵的乘积。在转换阶段使用目标说话人语音字典代替源说话人语音字典实现语音转换。这种基于NMF的方法可以有效的改进基于统计参数方法所造成的过拟合问题,产生更加自然的语音,并且该方法还有很好的噪声鲁棒性。但是,这种方法也存在以下缺点:需要在每次语音转换之前搜集到足够的源和目标说话人的平行语音用于字典生成的训练阶段,因此在语音转换阶段一旦源说话人身份改变了,也就是无法完成源说话人语音到目标说话人语音的语音转换了。在实际应用中,不可能收集每一个源说话人与目标说话人的大量平行语音段进行训练过程,因此,基于NMF的语音转换算法存在局限性,无法有效快速实现任意源与目标语音的语音转换。
发明内容
本发明的目的是为了解决上述问题,提供一种针对任意源和目标说话人之间的语音转换方法,将语音转换的字典生成的训练过程和语音转换过程分开,在语音转换过程中不需要因为语音转换的源语音和目标语音的身份的变化而去重新训练语音字典。本发明在基于NMF 方法的基础上引入了张量的概念,从语料库中选取一个、两个或者多个目标语音作为语音张量字典的基础语音,通过多序列动态时间规整算法使这一个、两个或者多个目标语音的平行语音段对齐,从而建立由一个、两个或者多个二维基础字典构成的张量字典。在语音转换阶段,源、目标说话人语音都可以通过张量字典中各基础字典的线性组合,构造出各自的语音字典,实现了语音转换。
为了达到上述发明目的,本发明采用以下技术方案:一种针对任意源和目标语音之间的语音转换方法,包括以下步骤,
步骤一,建立至少一个基础说话人语音的张量字典;
步骤二,构建目标语音对应的语音字典和任意源的语音字典;
步骤三,重构任意源的语音内容,实现任意源到目标语音的转换。
进一步,所述步骤二为利用张量算法在张量字典中构造目标语音的语音字典和任意源的的语音字典。
进一步,所述步骤一建立至少一个目标语音的张量字典的过程具体如下:
1)从语料库中随机选取出N个目标语音,形成张量字典的基础语音,从这N个目标语音中随机选取语义内容相同的语音信号x1,x2,...,xN,N≥1,X代表语音信号;
2)提取每个语音信号中的特征参数矢量序列S1,S2,…,SN;
3)利用多序列动态时间规整算法将上述特征参数矢量序列S1,S2,…,SN对齐,对齐后的语音特征参数矢量序列为S′1,S′2,…,S′N;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710186569.5/2.html,转载请声明来源钻瓜专利网。