[发明专利]一种基于声学空间非线性流形结构的声学模型构建方法在审
申请号: | 201510124249.8 | 申请日: | 2015-03-20 |
公开(公告)号: | CN104795063A | 公开(公告)日: | 2015-07-22 |
发明(设计)人: | 张文林;屈丹;李真;闫红刚;牛铜 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G10L15/14 | 分类号: | G10L15/14 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 胡泳棋 |
地址: | 450052 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 声学 空间 非线性 流形 结构 模型 构建 方法 | ||
技术领域
本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法,属于连续语音识别技术领域。
背景技术
在连续语音识别中,为了反映同一音素在不同上下文环境中发音的不同,通常采用上下文相关音素建模方法,即对每一个音素的不同音位变体,分别用一个隐马尔可夫模型(Hidden Markov Model,HMM)进行建模,其中每一个隐含状态的观测概率分布用高斯混合模型(Gaussian Mixture Model,GMM)或神经网络进行逼近。这种上下文相关模型的参数数量庞大,即使采用状态绑定等方法来减少状态个数,典型的连续语音识别系统参数数量仍然在百万级以上。为了训练得到一个性能良好的识别系统,需要大量的训练数据,而实际中训练数据往往是十分有限的。因此,为了减少模型对训练数据量的要求,需要进一步降低模型的复杂度,提高参数估计的稳健性。
针对传统的“隐马尔可夫模型(Hidden Markov Model,HMM)-高斯混合模型(Gaussian Mixture Model,GMM)”声学模型,目前常用的解决方案有:结构化协方差矩阵/精度矩阵建模方法,即假设不同协方差矩阵或其精度矩阵由若干个低秩(通常是秩为1的)基矩阵的线性叠加得到,各高斯混元通过某种方式共享一组相同的基矩阵;本征三音子(Eigentriphone)建模方法,将上下文相关状态进行聚类,将每一类状态的均值矢量限定在一个线性子空间中,通过估计子空间中的低维坐标矢量来重构状态的均值矢量,从而得到更为精确的参数估计;子空间高斯混合模型(Subspace Gaussian Mixture Model,SGMM)将高斯混元的均值和权重限制在一个全局参数子空间中,因此每一个状态可以用一个或若干个低维参数子空间中的矢量来表示,从而提高模型参数估计的稳健性。与传统的高斯混合模型(Gaussian Mixture Model,GMM)相比,SGMM声学模型大大压缩了模型尺寸,并且可以利用集外数据对参数子空间进行估计,因此特别适用于训练数据量受限条件下的语音识别。
前述几种方法可以归结为一大类基于基展开(Basis Expand)的声学建模方法。近年来,基于压缩感知与稀疏表达的方法受到众多学者的青睐,已被成功应用于语音去噪、稳健性语音识别、声学模型正则化等方面。2012年,Saon等将压缩感知技术直接应用于连续语音识别声学建模中,将表示方法与马尔可夫链相结合,提出了一种贝叶斯感知隐马尔可夫模型(Bayesian Sensing HMMs,BSHMMs),取得了不错的效果。BS-HMMs的有效性可以归结为其在声学特征层次上应用压缩感知技术来建立状态模型,并利用最大后验估计得到了稳健的模型参数。然而,与SGMM声学模型不同,其各状态模型之间的参数估计是相互独立的,需要训练多个状态相关字典,因此对训练数据量的要求仍较高。2013年,Zhang等提出稀疏精度矩阵建模方法,即对协方差矩阵的逆矩阵直接施加稀疏约束,从而间接减少模型参数数量。
上述基展开方法本质上都是寻找模型参数的线性子空间,事实上,众多研究表明语音信号存在一个低维的非线性流形结构,因此现有方法采用线性子空间来对模型参数的相关性进行建模是不精确的,只是一种近似方法。
发明内容
本发明的目的是提供一种基于声学空间非线性流形结构的声学模型构建方法,以解决目前采用线性子空间来对模型参数的相关性进行建模所导致模型不精确的问题。
本发明为解决上述技术问题而提供一种基于声学空间非线性流形结构的声学模型构建方法,该构建方法包括以下步骤:
1)采用含有I个高斯混元的高斯混合模型(Gaussian Mixture Model,GMM)作为声学特征空间的统一背景模型(Universal Background Model,UBM);
2)对UBM中每个高斯混元的协方差矩阵进行特征值分析,确定声学特征空间各局部区域的潜在维数Di及因子分析模型参数,得到声学特征空间中的混合因子分析模型(Mixture of Factor Analyzers,MFA),作为其低维非线性流形结构的近似模型;
3)使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系,将上下文相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上,估计上下文相关状态的观测概率模型,即构成了基于MFA的上下文相关状态模型;
4)对基于MFA的上下文相关状态模型的参数进行迭代估计,最终所得到模型即为所要构建的声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510124249.8/2.html,转载请声明来源钻瓜专利网。