[发明专利]一种伪装声音的识别方法及装置有效

申请号：	201310728591.X	申请日：	2013-12-24
公开（公告）号：	CN103730121A	公开（公告）日：	2014-04-16
发明（设计）人：	王泳;黄继武	申请（专利权）人：	中山大学;深圳大学
主分类号：	G10L17/04	分类号：	G10L17/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种伪装声音的识别方法及装置，该识别方法是利用语音的基频特性估计语音转换的系数，并对Mel频率倒谱系数提取算法进行了改进，即利用线性插值伸缩将估计的系数整合到Mel频率倒谱系数提取算法中，使其能近似计算出转换语音在转换前的Mel频率倒谱系数。最后，将以上方法整合到GMM-UBM（高斯混合模型-一致背景模型）识别框架中，计算语音之间的相似度。同时，还能利用该估计的转换系数将转换后的语音还原为原语音。本发明在识别性能上相比常规识别取证方法有极大的提高，漏检和虚警皆比常规的方案要低。
搜索关键词：	一种伪装声音识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种伪装声音的识别方法，其特征在于，所述方法包括：在训练阶段，利用最大期望值EM算法从背景语音库中计算一致背景模型UBMλ_bkg；在训练阶段，提取说话人j的测试语音S_j的Mel倒谱系数MFCC及基频，利用最大后验概率MAP算法计算说话人j的高斯混合模型GMM λ_j，计算基频平均值f_j；建立说话人j的模型V_j=(λ_j,f_j)，并存储在模型数据库中；在训练阶段获得阈值θ，阈值θ获取方法：计算客户分数及假冒者分数，利用这两类分数的分布选择阈值θ以达到符合应用要求的漏检率和虚警率，其中客户分数Client Scores，是说话人语音片段在该说话人模型下的概率，假冒者分数Imposter Scores，是说话人语音片段在其它说话人模型下的概率；在测试阶段，语音Y为经过转换后的语音，提取语音Y的基频平均值f_Y；利用f_Y/f_j计算转换系数；利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X；经基于GMM-UBM的概率估计算法得出Y为模型V_j的概率Λ(X)；比较概率Λ(X)与阈值θ，若所得概率大于阈值θ则语音Y为j所说片段；否则语音Y不为j所说；其中所述改进型MFCC提取算法具体为：在MFCC提取算法中的加窗和FFT变换之后，对FFT系数的幅值|F(k)|进行线性插值伸缩得出|F(k′)|，FFT系数的幅值线性插值伸缩如下公式所示：|F(k′)|=μ|F(k)|+(1-μ)|F(k+1)| 0≤k<N/2 0≤k′<N/2μ=k′/(1/α′)-k其中1/α′为所述估计的转换系数的倒数，α′为估计的转换系数，α′=f_Y/f_j。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学;深圳大学，未经中山大学;深圳大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201310728591.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种伪装声音的识别方法及装置有效

专利文献下载