[发明专利]基于自适应非平行训练的语音转换方法在审
申请号: | 201410377091.0 | 申请日: | 2014-08-01 |
公开(公告)号: | CN104123933A | 公开(公告)日: | 2014-10-29 |
发明(设计)人: | 王飞跃;孔庆杰;熊刚;朱凤华;朱春雷 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/07;G10L15/18 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自适应 平行 训练 语音 转换 方法 | ||
技术领域
本发明涉及语音信号分析、语音信号处理、语音转换以及语音合成等领域,具体涉及一种基于自适应非平行训练的语音转换方法,属于语音信号处理领域中的语音转换分支。
背景技术
语音转换是指在保持语义内容不变的前提下,改变说话人的个性特征,使源说话人的语音在经过变换后听起来像是目标说话人说的一样。语音转换是对语音综合与识别技术的深度发展,语音转换作为语音信号处理领域的新的分支,具有高度的理论研究价值和应用前途。借鉴语音分析与合成、语音识别技术、语音编解码技术、语音增强以及说话人确认和辨识等领域的知识,为语音转换技术的发展提供技术支持,而语音转换技术的研究,又将促进这些领域的发展,为这些领域的进一步研究提供极具价值的参考意义。
目前,语音转换从大的类别上可分为同种语言之间的语音转换和跨语言的语音转换。对于同种语言之间的语音转换,在训练阶段,因语料的选择不同,又分为平行语料训练和非平行语料训练。对于跨语言的语音转换,要获得平行语料是不可能的,只能通过非平行语料来进行训练。通过几代人的努力,语音转换的研究取得了很大的发展,很多学者提出了不同的转换方法,总结起来,大致有以下几类:矢量量化方法,线性多变量回归法,人工神经网络法,多说话人插值转换法,高斯混合模型等。但以上的方法都是基于平行语料联合训练的语音转换,在实际应用中还存在一些问题:1.很多情况下平行语料很难获得甚至得不到;2.基于联合特征矢量的训练计算量很大,并且对语音成分对准的精度要求很高;3.联合语音模型采用联合训练的方法使得系统的扩展不方便,灵活性很差。
针对这些问题,尽管近些年来研究人员进行了非平行语料下语音转换的研究,但是这些方法大都还是局限于解决平行语料的限制采用的是联合语音训练方法,还不能解决第二、三个问题。比如Mouchtaris等人于2006年发表在《IEEE Transactions on Audio,Speech and Language Processing(音频,语音和语言处理IEEE学报)》的第14卷第3期的名为《Nonparallel training for voice conversion based on a parameter adaptation approach(基于参数自适应方法的非平行训练语音转换)》的论文采用参数自适应的方法去转换频谱包络;陶建华等人于2010年发表在《IEEE Transactions on Audio,Speech and Language Processing(音频,语音和语言处理IEEE会刊)》的第18卷第5期的名为《Supervisory Data Alignment for Text-Independent Voice Conversion(基于监督数据对齐的与文本无关的声音转换)》的论文提出了对非平行语料进行监督数据排列的方法实现语音转换;Ling-Hui Chen等人于2011年的《IEEE International Conference on Acoustics,Speech and Signal Processing(声学,语音和信号处理的IEEE国际会议)》上发表了名为《Non-Parallel Training For Voice Conversion Based On FT-GMM(基于FT-GMM模型的非平行训练语音转换)》的论文中采用特征变换的高斯混合模型(FT-GMM)进行了非平行训练语音转换的研究;Daojian Zeng等人于2010年的《2010 IEEE 10th International Conference on Signal Processing(2010年IEEE学会信号处理国际会议)》上发表了名为《Voice Conversion Using Structrued Gaussian Mixture Model(基于结构化高斯混合模型的语音转换)》的论文中运用结构化高斯混合模型实现了基于独立说话人模型的语音转换。
由于基于平行语料的语音转换方法受到了上述种种约束,导致了语音转换技术难以全面的走向实际应用,如通过非平行训练方法得到独立的说话人语音模型,改变源说话人的个性特征参数,加入目标说话人的个性特征,实现源-目标之间的转换,这对语音转换领域的发展将是巨大的贡献。
发明内容
为了克服上述现有技术的不足,本发明提供了一种新的非平行语料训练的语音转换方法,以解决平行语料联合训练语音转换方法中存在的以下问题:1、传统语音转换系统中需要平行语料训练得到转换函数,而平行语料很难获取;2、传统语音转换系统需要对特征矢量进行联合训练;3、传统语音转换系统的扩展不方便。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410377091.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能光伏公交站广告牌
- 下一篇:一种RGB交叉混色显示屏