[发明专利]一种语种识别模型的训练方法及语种识别方法有效
申请号: | 201410336650.3 | 申请日: | 2014-07-15 |
公开(公告)号: | CN105280181B | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 周若华;王宪亮;颜永红;索宏彬 | 申请(专利权)人: | 中国科学院声学研究所;北京中科信利技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;杨青 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 识别 模型 训练 方法 | ||
本发明涉及一种语种识别模型的训练方法及语种识别方法,包括:提取训练语音数据的音素后验概率,将音素后验概率转换到对数域,进行降维和均值方差规整得到音素相关特征;利用音素相关特征计算Baum‑Welch统计量,利用Baum‑Welch统计量提取音素变化量因子;对音素变化量因子进行建模,建立SVM模型(语种识别模型);将待识别语音数据的音素变化量因子对SVM模型进行打分,对得分进行均值方差规整,并对规整后的得分使用线性鉴别性分析和高斯后端规整进行得分校正,得到最终识别结果。该方法与传统的语种识别方法相比,降低了计算复杂度,语种识别性能得到明显提升,具有很高的实用性。
技术领域
本发明涉及语音数据语种信息的识别方法,更具体地说,本发明涉及基于音素相关特征的语种识别方法。
背景技术
随着现代社会信息的全球化,语种识别成为语音识别技术研究热点之一。语种识别技术的目的是能够制造一种在一定程度上模仿人的思维对语音进行语种辨识的机器,也就是从语音信号中提取出各语种的差异信息,并以此为依据判断所属语种。提取的语音信号特征直接影响到语种识别的结果。
主流的语种识别技术包括基于声学频谱特征识别和基于音素特征识别两大类。
声学频谱特征是指美尔倒谱的移位差分谱特征(MSDC)(文献[1]P.A.Torres-Carrasquillo,E.Singer,M.A.Kohler,R.J.Greene,D.A.Reynolds,and JR Deller Jr,“Approaches to language identication using Gaussian mixture models andshifted delta cepstral features,in Seventh International Conference onSpoken Language Processing.Citeseer,2002.),基于声学频谱特征的模型方法只是把从语音中提取的倒谱特征作为该语音的特征,然后对这些特征进行建模,没有涉及语音的发音信息。建模通常使用高斯混合模型(GMM)(文献[2]L.Burget,P.Matejka andJ.Cernocky,“Discriminative training techniques for acoustic languageidentification”,International Conference on Acoustics,Speech,and SignalProcessing,vol.1,2006.)和支持向量机模型(SVM)(文献[3]W.M.Campbell,J.P.Campbell,D.A.Reynolds,E.Singer and P.A.Torres-Carrasquillo,“Supportvector machines for speaker and language recognition”,Computer SpeechLanguage,vol.20,no.2-3,pp.210-229,2006.)。基于因子分析的ivector系统(文献[4]Najim Dehak,Pedro A Torres-Carrasquillo,Douglas A Reynolds,and Reda Dehak,“Language recognition viai-vectors and dimensionality reduction.,”inINTERSPEECH,2011,pp.857–860.)在语种识别中取得了很好的性能,得到了广泛的应用。Ivector方法定义了一个称为总变化量因子空间的低维空间,这个空间同时包含了说话人空间和信道空间,然后将高维的高斯超向量表示为低维的总变化量因子,实验证明,低维的总变化量因子能够完全表征高维的高斯超向量。该方法引入语种识别后,迅速成为声学建模的主流方法,许多语种识别的研究都是在该方法基础上开展的。然而,语种识别中对于Ivector方法的研究只是局限于声学频谱特征,并没有推广到包含丰富的语音发音信息的音素特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科信利技术有限公司,未经中国科学院声学研究所;北京中科信利技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410336650.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种家庭情绪管理的装置和方法
- 下一篇:一种消声装置