[发明专利]一种多口音声学模型及多口音语音识别方法在审
申请号: | 201911050896.3 | 申请日: | 2019-10-31 |
公开(公告)号: | CN110930982A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 计哲;黄远;高圣翔;沈亮;林格平;徐艳云 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/06;G10L15/08;G10L15/28;G10L15/26 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈玉婷 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 口音 声学 模型 语音 识别 方法 | ||
本发明提供一种多口音声学模型和多口音语音识别方法,所述多口音声学模型包括多个BLSTM层、多个Softmax输出层和一个门控单元,多个BLSTM层依次串接后与每一个Softmax输出层串接,门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间。本发明对传统的普通话声学模型构造进行改进,针对需要识别的多种口音数据的类别数量,将传统的普通话声学模型中的Softmax输出层复制多份,每一个Softmax输出层为口音特定输出层,将输出层设计为口音特定的形式,即每种口音独享其对应的输出层;而门控单元对神经网络的BLSTM层的输出进行一种口音特定的调节,以使该模型更好地适用于多种口音。
技术领域
本发明属于语音识别技术领域,尤其涉及一种多口音声学模型及多口音语音识别方法。
背景技术
针对普通话构建的基于使用神经网络与隐马尔科夫混合模型的普通话声学模型的语音识别系统在标准普通话语音的语音识别上已经可以达到比较令人满意的效果,但这种普通话声学模型在应用于带有口音的语音识别任务上时性能会明显下降,这种性能下降主要是由于基于普通话构建的普通话声学模型无法对带口音的语音数据进行准确的音素状态分类。因此,在处理带有口音的语音的语音识别任务时,需要构建专用的声学模型。
一种语言的口音主要有两个来源,一是由母语为其他语言的说话人发音产生的,二是由母语为该语言某种方言的说话人发音产生的。在汉语中,后者是口音的主要来源。汉语大致可以划分成七大方言,即官话方言,吴方言、湘方言、客家方言、闽方言、粤方言、赣方言。此外,在一个比较复杂的大方言区内,有时可以再划分成许多的小方言区,市县级别的方言可以称之为地方方言,例如广州话、青岛话、唐山话等。因而,由不同方言所派生出的口音种类也是十分繁杂的,这就导致了在语音识别的实际应用中通常需要处理的是多口音语音识别问题。
在实际的生产环境中,大量的普通话语音数据较容易获取,而带口音的语音数据由于标注的复杂性以及高昂的人工成本往往面临数据稀疏的问题。为了充分利用有限的数据来达到语音识别系统的最优性能,通常的做法是先使用大数据量的普通话语音数据训练一个鲁棒的普通话声学模型,然后针对单个口音使用其对应的数据进行自适应得到特定口音声学模型,这种方法被称为口音特定声学模型的自适应。然而,这种方法需要对每个目标口音都进行单独的自适应训练,并且需要找到其最优的配置参数,最终会得到多个声学模型,得到的多个特定口音声学模型在训练复杂度和存储空间上的代价是很大的。
多口音声学模型的自适应,即直接使用多口音语音数据利用传统方法对普通话声学模型进行优化可以解决这个问题,但传统的多口音声学模型自适应方法得到的多口音声学模型性能通常差于口音特定声学模型自适应方法。
发明内容
为克服上述现有的无法对多种口音识别以及识别率低的问题或者至少部分地解决上述问题,本发明实施例提供一种多口音声学模型和多口音语音识别方法。
根据本发明的一个方面,提供一种多口音声学模型,包括多个双向长短期记忆网络BLSTM(Bidirectional Long Short-Term Memory)层、多个Softmax输出层和一个门控单元,所述多个BLSTM层依次串接后与每一个Softmax输出层串接,所述门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间;
其中,所述Softmax输出层的数量与口音数据的类别数量相等,每一个Softmax输出层与口音数据的类别一一对应。
在上述技术方案的基础上,本发明还可以作出如下改进。
优选的,所述门控单元为加法型门控单元或者点乘型门控单元。
根据本发明的另一个方面,提供一种多口音语音识别方法,包括:
提取待识别口音数据的声学特征;
将所述声学特征输入训练后的多口音声学模型中,输出所述待识别口音数据的三音素状态的后验概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911050896.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种结晶器内钢液流动的预测方法
- 下一篇:一种升降清洗过滤网的除尘装置