[发明专利]基于混合t模型的说话人识别方法无效

申请号：	200810162449.2	申请日：	2008-11-25
公开（公告）号：	CN101419799A	公开（公告）日：	2009-04-29
发明（设计）人：	吴朝晖;杨莹春;单振宇	申请（专利权）人：	浙江大学
主分类号：	G10L17/00	分类号：	G10L17/00
代理公司：	杭州天勤知识产权代理有限公司	代理人：	胡红娟
地址：	310027浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于混合模型说话识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信号处理和模式识别，主要是一种基于混合t模型的说话人识别方法。

背景技术

说话人识别技术是指利用信号处理和模式识别方法，根据说话人的语音识别其身份的技术。说话人识别包括两个步骤，包括模型训练和测试。其中，模型训练是指对说话人的语音特征建模的过程。如果要取得良好的识别性能，需要考虑建模的模型类型和模型参数的训练两个方面。模型类型的选择方法和语音数据的分布有关，目前常用的说话人模型类型有混合高斯模型(Douglas A.Reynolds，Richard C.Rose，“Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Models”，IEEETRANSACTIONS ON SPEECH AND AUDIO PROCESSING，VOL.3，no.1，pp.72-83，JANUARY 1995.)和码本模型。

由于语音数据有较大的边缘分布，高斯混合模型不能很好的对边缘数据建模。

发明内容

本发明提出了一种基于混合t模型的说话人识别方法。该方法采用混合t模型为说话人的语音特征空间建模，是一种新的说话人模型，t分布又可称为学生分布，混合t分布是有限数量的t分布的线性组合。

一种基于混合t模型的说话人识别方法，包括如下步骤：

1)、特征提取：采集待识别的语音信号，对音频信号预处理，预处理分为采样量化，去零漂，预加重和加窗4个步骤。

对预处理后的语音信号进行特征提取，本方法可以采用的特征提取方法为基于美尔系数的特征提取方法、基于美尔倒谱系数(MFCC)的特征提取方法、基于线性预测倒谱系数的特征提取方法(LPCC)中的一种或多种。

关于预处理中的4个步骤、基于美尔系数、基于美尔倒谱系数(MFCC)的特征提取方法以及基于线性预测倒谱系数的特征提取方法均可参见JOSEPH P.CAMPBELL，JR.的“Speaker Recognition：A Tutorial”，《PROCEEDINGS OF THE IEEE》(VOL.85，NO.9，pp.1437-1462，SEPTEMBER 1997)。

采用不同的提取方法，可分别得到语音信号的美尔特征、美尔倒谱特征或线性预测倒谱特征。每帧特征可用x_j表示，是一个p维的向量。

2)、说话人建模：采用混合t模型对语音特征建模，根据说话人的语音训练出其混合t模型的参数；

混合t模型是M个t分布的线性组合，可以表示为：

p(x)=Σi=1Mwiti(x)]]>