[发明专利]一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法无效

申请号：	200910035424.0	申请日：	2009-09-28
公开（公告）号：	CN102034472A	公开（公告）日：	2011-04-27
发明（设计）人：	戴红霞;王吉林;余华;魏昕;赵力	申请（专利权）人：	戴红霞;王吉林;余华
主分类号：	G10L15/00	分类号：	G10L15/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	210096 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于嵌入神经网络混合模型说话识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种说话人识别方法，特别涉及一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法。

背景技术

在门禁、信用卡交易和法庭证据等方面，自动说话人识别，特别是与文本无关的说话人识别起着越来越重要的作用，它的目标是把待识别语音正确地判定为属于语音库中多个参考人之中的某一个。

在说话人识别的方法上，基于高斯混合模型(GMM)方法越来越受到重视，由于它具有识别率高，训练简单，训练数据量要求不大等优点，已经成为目前主流的识别方法。由于高斯混合模型(GMM)具有很好的表示数据的分布的能力，只要有足够多的项，足够多的训练数据，GMM就能够逼近任何分布模型。但是，实际使用GMM时存在几个问题。首先，GMM没有利用说话人语音的时间信息，训练和识别的结果与特征向量的输入顺序无关；其次，在GMM训练时，我们总是假设特征向量互相是独立的，这明显不合理；另外，由于我们在选择GMM模型时，混合项数目的选取也没有好的指导原则，要取得好的结果就要求高斯混合项足够多。

神经网络在说话人识别方面也占有重要的位置，多层感知器、射线基网络和自联想神经网络等已经成功应用于说话人识别，尤其是时延神经网络(TDNN)在信号处理、语音识别和说话人识别中得到广泛应用，它充分利用了特征向量序列的时序信息，对特征向量进行学习和变换，使变换后的特征向量以某种方式(通常为极小最小二乘法)逼近目标向量。但是目前GMM和TDNN只是单独用于说话人识别，还没有出现结合二者各自的优点，从而更好地提高说话人识别效果的方法出现。

发明内容

本发明的目的就在于解决现有技术的缺陷，提出了一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法。本发明的技术方案是：

一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法，其包括以下步骤：

(1)预处理与特征提取；

首先，使用了基于能量和过零率的方法进行静音检测，并用谱减法去除噪声，并对语音信号进行预加重，分帧，并进行线性预测(LPC)分析，然后从得到的LPC系数中求出倒谱系数作为说话人识别的特征向量。

(2)训练；

训练时，将提取出的特征向量经过延迟后作为TDNN的输入，TDNN学习特征向量的结构，提取特征向量序列的时间信息。然后把学习结果以残差特征向量的形式提供给GMM，采用最大期望(EM)准则进行GMM模型训练，并且利用带惯性的向后反演方法更新TDNN网络的权系数。具体训练过程如下：

(2-1)确定GMM模型和TDNN结构：

一个M阶GMM的概率密度函数是由M个高斯概率密度函数加权求和得到的，可以用如下形式表示：

p(xt|λ)=Σi=1Mpibi(xt)]]>