[发明专利]一种基于声道和韵律特征的情感语音转换方法在审
申请号: | 201711454427.9 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108447470A | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 陈明义;杨婧 | 申请(专利权)人: | 中南大学 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L13/033;G10L19/07;G10L21/007;G10L25/30;G10L25/45 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 情感语音 韵律特征 声道 转换 中性语音 预处理 模型输出参数 参数输入 合成目标 交流方式 匹配模型 人机交互 语音合成 语音转换 转换模型 语义 对中性 语音 局限 对话 | ||
1.一种基于声道和韵律特征的情感语音转换方法,其特征在于,所述方法是利用神经网络得到中性和其他情感语音声道和韵律特征的转换模型,在说话内容保持不变的前提下,实现中性到情感之间的语音转换,转换方法的好坏直接反映在用户对转换后音频的听觉感受以及可视化的声纹中。
2.根据权利要求1所述的方法,其特征在于,包括:
S1:情感语音训练阶段,先对中性和其他情感语音进行预处理,然后提取其声道和韵律特征参数,建立转换模型;
S2:情感语音转换阶段,将中性语音的声道和韵律特征参数输入转换模型中,将模型输出参数进行语音合成,合成目标情感语音。
3.根据权利要求2所述的方法,其特征在于,所述步骤S1中,所述的预处理是指设置一系列参数,对语音进行分帧加窗预处理。
4.根据权利要求2所述的方法,其特征在于,所述步骤S1中,所述的声道特征参数提取中进行LSP(linear spectrum pair)分析,是用n个离散频率的分布式密度来表示语音信号频谱特征的一种方法;而在LSP系数计算中,采用线性预测分析法,通过使实际采样值和线性预测采样值之间差值的二次方和达到最小值,即进行最小均方误差的逼近,直接决定一组线性预测系数,求出LSP系数。
5.根据权利要求2所述的方法,其特征在于,所述步骤S1中,所述的韵律特征提取中,本发明采用了主体-延伸法获取基音周期T,进一步包括:
S11:对语音信号序列x(n)加窗分帧预处理,得到第i帧的语音信号xi(n),对序列xi(n)进行端点检测和元音主体检测,然后对序列x(n)进行带通滤波,得到序列再进行一次加窗分帧预处理,得到第i帧的语音信号
S12:求出元音主体的延伸区间和长度,提取元音主体的基音周期,往前后延伸对过渡区间进行基音检测。
6.根据权利要求5所述的方法,其特征在于,所述步骤S11中,第一次加窗分帧的目的是端点检测和元音主体检测,利用用能量和谱熵的比值进行端点检测和元音主体检测。第二次加窗分帧是为了进行基音检测,通过滤波,减少共振峰对基音检测的影响。
7.根据权利要求5所述的方法,其特征在于,所述步骤S12中,会求出每个元音主体属于哪一个有话段。在一个有话段中可能包含多个元音主体,所以要划出每个元音主体需要延伸进行端点检测的区间,以及它向前向后需要检测的帧数。用自相关函数的方法提取元音主体的基音周期,以元音主体的基音周期为基准,延伸向前向后区域进行基音检测。
8.根据权利要求2所述的方法,其特征在于,所述步骤S1中,所述建立转换模型中,分别通过BP(Back Propagation)神经网络和GRNN(General Regression Neural Network)神经网络找出声道特征参数LSP和韵律特征参数T的非线性转换关系。
9.根据权利要求2所述的方法,其特征在于,所述步骤S2中,进一步包括:
S21:获得中性语音的声道参数LSP和韵律特征参数T;
S22:将中性语音的声道参数LSP和韵律特征参数T输入到转换模型中,得到转换后的目标情感语音的声道参数LSP和韵律特征参数T;
S23:将目标情感语音的声道参数LSP和韵律特征参数T进行语音合成,最后输出并画出语音声纹图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711454427.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的变电站用吸声复合板
- 下一篇:语音识别方法及语音识别装置