[发明专利]一种语音建模方法及装置有效
申请号: | 201611103738.6 | 申请日: | 2016-12-05 |
公开(公告)号: | CN108172218B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 徐衍瀚 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;安利霞 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 建模 方法 装置 | ||
本发明提供一种语音建模方法及装置,涉及语音识别技术领域,用以降低语音模型建模的复杂度。本发明的语音建模方法,包括:将标准普通话数据和至少一种带有方言口音的普通话数据作为输入数据,并提取所述输入数据的语音特征向量;利用所述语音特征向量训练深度神经网络DNN声学模型,其中所述声学模型的输出层输出第一概率;获取带有目标方言口音的普通话数据;利用所述带有目标方言口音的普通话数据学习所述输出层,并利用所述输出层输出的第二概率更新所述第一概率。本发明能够降低语音模型建模的复杂度。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音建模方法及装置。
背景技术
语音识别即让机器听懂人说的话,将语音信号转化为计算机可识别的输入。目前的语音识别技术主要为统计模式识别技术和人工神经网络技术。
隐马尔科夫模型(Hidden Markov Model,HMM)是当今语音识别等语音技术领域的较为完善较为成熟的模型,其使用统计的概念将时序性的语音通过隐马尔科夫过程来建模,取得了较好的结果。
近年来基于深度神经网络(Deep Neural Networks,DNN)语音识别系统受到研究人员越来越多的关注。深度学习的概念源于人工神经网络的研究,由Hinton等人于2006年提出。深度学习的实质是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。主要有以下观点:(1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的描述,从而有利于分类;(2)深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服,而逐层初始化是通过无监督学习实现的。
为了提高对具有方言口音背景的普通话的识别准确率,现有技术提供了多种方法。其中一些方法针对声学建模过程中的训练方法进行改进,一些方法对识别系统中的语言模型进行改进。但是,现有的对具有方言口音背景的普通话识别方法中,训练模型的复杂度高。
发明内容
有鉴于此,本发明提供一种语音建模方法及装置,用以降低语音模型建模的复杂度。
为解决上述技术问题,本发明提供一种语音建模方法,包括:
将标准普通话数据和至少一种带有方言口音的普通话数据作为输入数据,并提取所述输入数据的语音特征向量;
利用所述语音特征向量训练深度神经网络DNN声学模型,其中所述声学模型的输出层输出第一概率;
获取带有目标方言口音的普通话数据;
利用所述带有目标方言口音的普通话数据学习所述输出层,并利用所述输出层输出的第二概率更新所述第一概率。
其中,所述提取所述输入数据的语音特征向量的步骤,包括:
对所述输入数据进行加窗分帧操作,获得语音帧;
去除所述语音帧中的静音帧,获得所述语音特征向量。
其中,所述利用所述语音特征向量训练深度神经网络DNN声学模型,其中所述声学模型的输出层输出第一概率的步骤,包括:
将所述语音特征向量作为输入信号输入到所述DNN声学模型的输入层;
在所述DNN声学模型的多个隐藏层中,利用每个隐藏层对应的第一权值,对所述每个隐藏层的输入信号进行处理,获得所述每个隐藏层的输出信号;
在所述DNN声学模型的输出层,对最上一隐藏层的输出信号进行处理,获得第一概率。
其中,所述利用所述带有目标方言口音的普通话数据学习所述输出层,并利用所述输出层输出的第二概率更新所述第一概率的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团公司,未经中国移动通信有限公司研究院;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611103738.6/2.html,转载请声明来源钻瓜专利网。