[发明专利]一种基于PSM变调的语音识别及其还原方法及其装置无效
| 申请号: | 201110183006.3 | 申请日: | 2011-07-01 |
| 公开(公告)号: | CN102354496A | 公开(公告)日: | 2012-02-15 |
| 发明(设计)人: | 王泳;黄继武 | 申请(专利权)人: | 中山大学 |
| 主分类号: | G10L17/00 | 分类号: | G10L17/00 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
| 地址: | 510275 *** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 psm 变调 语音 识别 及其 还原 方法 装置 | ||
1.一种基于PSM语音变调的识别方法,其特征在于,所述方法为:输入测试语音和参考语音,所述参考语音为经过PSM变调后的语音,所述测试语音为未经PSM变调的语音;提取测试语音的美频率倒谱系数;提取所述测试语音和参考语音的基频,计算出伸缩系数;对美频率倒谱系数的提取算法采用所述伸缩系数进行线性插值伸缩,得出改进型提取算法,用所述改进型提取算法提取所述参考语音的美频率倒谱系数,根据所述参考语音的美频率倒谱系数与所述测试语音的美频率倒谱系数作匹配计算,若所得值大于预设值则识别为不同音源的语音,若不大于预设值,则识别为同一音源的语音。
2.根据权利要求1所述的基于PSM语音变调的识别方法,其特征在于,计算所述伸缩系数的估计方法为:α′=mean(Fr)/mean(Ft),其中α′为所述估计伸缩系数,mean(Fr)为所述参考语音的基频值的平均值,mean(Ft)为所述测试语音的基频值的平均值。
3.根据权利要求1所述的基于PSM语音变调的识别方法,其特征在于,所述基频值的提取步骤如下:
(1)对信号加窗求得到任一时刻tmid前后一预定长度值的信号;
(2)求所述预定长度值的信号的自相关函数和窗函数的自相关函数;
(3)两相关函数相除,最大值处即为周期T,获取该时刻tmid的基频F。
4.根据权利要求1所述的基于PSM语音变调的识别方法,其特征在于,所述改进型提取算法为在美频率倒谱系数提取算法中的加窗和FFT变换之后,对FFT系数的幅值|F(k)|进行线性插值伸缩得出|F(k′)|。
5.根据权利要求1或4所述的基于PSM语音变调的识别方法,其特征在于,线性插值伸缩的值为所述伸缩系数的倒数。
6.根据权利要求1所述的基于PSM语音变调的识别方法,其特征在于所述匹配计算的方法为动态时间规整算法。
7.根据权利要求1所述的基于PSM语音变调的识别方法所实现的语音还原方法,其特征在于,所述方法为,对判断为与测试语音是相同音源的参考语音进行以下步骤计算:
1)对待识别信号x(n)分帧、加窗、并进行FFT变换:
其中w(n)为窗函数(汉明窗或汉宁窗),N为帧长度,F(k)为FFT系数;
2)计算瞬时幅值:
3)通过本帧与前一帧的相位关系计算瞬时频率:
其中FS是抽样频率,Δ是相对中心频率的偏移频率,ω(k)为瞬时频率;
4)频谱伸缩
首先是瞬时幅值线性插值:
|F(k′)|=μ|F(k)|+(1-μ)|F(k+1)| 0≤k<N/2 0≤k′<N/2
μ=k′/(1/α′)-k
其中1/α′为所述伸缩系数的倒数;
接着进行频线搬移:
ω′(k*(1/α′))=ω(k)*(1/α′) 0≤k<N/2 0≤k*α<N/2
其中,ω′为进行频线搬移之后的瞬时频率;
5)由瞬时频率计算瞬时相位φ′(k),获得FFT系数:
F(k)=|F(k)|ejφ′(k)
6)对F(k)进行FFT反变换,得出还原的信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110183006.3/1.html,转载请声明来源钻瓜专利网。





