[发明专利]一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法无效

专利信息
申请号: 200910035424.0 申请日: 2009-09-28
公开(公告)号: CN102034472A 公开(公告)日: 2011-04-27
发明(设计)人: 戴红霞;王吉林;余华;魏昕;赵力 申请(专利权)人: 戴红霞;王吉林;余华
主分类号: G10L15/00 分类号: G10L15/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 210096 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法,本发明充分考虑了TDNN和GMM各自的优点,把TDNN嵌入到GMM中,TDNN充分利用了输入特征向量的时序性,并且通过时延网络的变换,求得TDNN输入和输出向量的残差,将该残差通过最大期望方法修正GMM的训练;此外利用修正后的GMM模型参数和残差得到一个似然概率,利用带惯性的向后反演方法修正TDNN参数,从而使得GNN和TDNN的参数交替更新。实验表明,采用本发明的方法在各种信噪比的情况下识别率都比基线GMM有所提高。
搜索关键词: 一种 基于 嵌入 神经网络 混合 模型 说话 识别 方法
【主权项】:
1.一种基于嵌入时延神经网络的高斯混合模型的说话人识别方法,其特征在于包括以下步骤:(1)预处理与特征提取;首先,使用了基于能量和过零率的方法进行静音检测,并用谱减法去除噪声,并对语音信号进行预加重,分帧,并进行线性预测(LPC)分析,然后从得到的LPC系数中求出倒谱系数作为说话人识别的特征向量;(2)训练;训练时,将提取出的特征向量经过延迟后进入时延神经网络(TDNN),TDNN学习特征向量的结构,提取特征向量序列的时间信息;然后把学习结果以残差特征向量的形式提供给高斯混合模型(GMM),采用最大期望方法进行GMM模型训练,并且利用带惯性的向后反演方法更新TDNN的权系数;具体训练过程如下:(2-1)确定GMM模型和TDNN结构:一个M阶GMM的概率密度函数是由M个高斯概率密度函数加权求和得到的,可以用如下形式表示:p(xt|λ)=Σi=1Mpibi(xt)]]>上式中xt为D维特征向量,这里D=13;bi(xt)是成员密度函数,其为均值矢量为ui,协方差矩阵为∑i的高斯函数;bi(xt)=1(2π)D/2|Σi|1/2exp{-12(xi-ui)TΣi-1(xt-ui)}]]>pi是混合权值混合权值满足条件:完整的GMM模型参数如下:λ={(pi,ui,∑i),i=1,2,...,M}在这里,利用的是不带反馈的TDNN特征向量x(n)经过线性延迟块的延迟后,作为TDNN的输入,TDNN对输入进行非线性变换,然后线性加权,得到输出向量,再与特征向量比较,通常使用的准则是最小均方准则(MMSE);TDNN的隐含层的神经元数目与输入层的神经元的数目的比例为3∶2,非线性激活S函数为y为经过加权求和后的输入;在训练时,神经网络的惯性系数γ=0.8;(2-2)设定收敛条件和最大迭代次数;具体而言,收敛条件为相邻两次GMM系数与TDNN权系数的欧式距离小于0.0001,最大迭代次数通常不大于100;(2-3)随机确定初始迭代的TDNN和GMM模型参数;TDNN的初始系数设定为由计算机产生的伪随机数,GMM的初始混合系数可以取为1/M,M为GMM的混合项数,GMM初始均值和方差由TDNN的残差向量经过LBG(Linde,Buzo,Gray)方法产生M个聚合类,分别计算这M个聚合类的均值和方差获得;(2-4)把特征向量x(n)输入TDNN网络,将通过TDNN之前的特征向量x(n)与TDNN的输出特征向量o(n)相减,得到所有的残差向量;(2-5)采用最大期望方法修正GMM模型的参数;设残差向量为rt,首先计算类别后验概率:p(i|rt,λ)=pibi(rt)Σk=1Mpkbk(rt)]]>然后更新混合权值均值矢量和协方差矩阵pi=1NΣt=1Np(i|rt,λ)]]>ui=Σt=1Np(i|rt,λ)xtΣt=1Np(i|rt,λ)]]>Σi2=Σt=1Np(i|rt,λ)xt2Σt=1Np(i|rt,λ)-ui2]]>(2-6)利用修正后的GMM模型各个高斯分布的权系数,均值向量和方差,把残差带入,得到一个似然概率,利用带惯性的向后反演方法修正TDNN参数;TDNN参数通过使下式中的函数极大化得到:L(X)=argmaxωijΠt=1Np((xt-ot)|λ)]]>其中ot为神经网络输出,xt为输入的特征矢量;对上式取对数后再取负,得到:G(X)=argminωij(-Σt=1Nlnp((xt-ot)|λ))]]>采用带惯性的向后反演方法求G(X)其迭代公式如下:Δωijk(m+1)=γΔωijk(m)-(1-γ)αF(x)ωijk|ωijk=ωijk(m)]]>其中,为第m次迭代中,连接输入xi和输出yj的权系数,k为神经网络的层序号,α为迭代步长,F(x)=-lnp((xt-ot)|λ),γ为惯性系数;(2-7)判断是否满足步骤(2-2)中设定的收敛条件或者是否达到最大迭代次数,如果是,则停止训练,否则,跳至步骤(2-4);(3)识别识别时,特征向量序列X经过延迟后输入TDNN;然后将X与TDNN的输出序列O相减所得到的残差序列R提供给GMM模型,对于T个残差矢量的序列R=R1,R2,...,RT,它的GMM概率可以写为:P(R|λ)=Πt=1Tp(Rt|λ)]]>在对数域表示为:L(R|λ)=logP(R|λ)=Σt=1Tlogp(Rt|λ)]]>识别时运用贝叶斯定理,在N个未知话者的模型中,似然概率最大的模型对应的话者即为目标说话人:i*=argmax1iNL(R|λi).]]>
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于戴红霞;王吉林;余华,未经戴红霞;王吉林;余华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200910035424.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top