[发明专利]一种多口音声学模型及多口音语音识别方法在审
| 申请号: | 201911050896.3 | 申请日: | 2019-10-31 |
| 公开(公告)号: | CN110930982A | 公开(公告)日: | 2020-03-27 |
| 发明(设计)人: | 计哲;黄远;高圣翔;沈亮;林格平;徐艳云 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/16;G10L15/06;G10L15/08;G10L15/28;G10L15/26 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 陈玉婷 |
| 地址: | 100029*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 口音 声学 模型 语音 识别 方法 | ||
1.一种多口音声学模型,用于对多种类别的口音数据进行识别,其特征在于,包括多个双向长短期记忆网络BLSTM层、多个Softmax输出层和一个门控单元,所述多个BLSTM层依次串接后与每一个Softmax输出层串接,所述门控单元位于所述多个BLSTM层中的其中两个相邻的BLSTM层之间;
其中,所述Softmax输出层的数量与口音数据的类别数量相等,每一个Softmax输出层与口音数据的类别一一对应。
2.根据权利要求1所述的多口音声学模型,其特征在于,所述门控单元为加法型门控单元或者点乘型门控单元。
3.一种多口音语音识别方法,其特征在于,包括:
提取待识别口音数据的声学特征;
将所述声学特征输入训练后的权利要求1所述的多口音声学模型中,输出所述待识别口音数据的三音素状态的后验概率;
根据所述待识别口音数据的三音素状态的后验概率,得到所述待识别口音数据的文本序列。
4.根据权利要求3所述的多口音语音识别方法,其特征在于,通过如下方式对所述多口音声学模型进行训练:
提取包括多种类别的口音数据的口音数据训练集中的每一条口音数据的声学特征和口音类别标签;
基于每一条口音数据的声学特征和口音类别标签,对所述多口音声学模型进行训练。
5.根据权利要求4所述的多口音语音识别方法,其特征在于,所述基于每一条口音数据的声学特征和口音类别标签,对所述多口音声学模型进行训练包括:
将每一条口音数据的所述声学特征输入所述多口音声学模型的第一BLSTM层,依次经过多个BLSTM层,将所述门控单元前的BLSTM层的第一输出向量和当前口音数据的口音类别标签同时输入所述门控单元;
经过所述门控单元的特定运算后的第二输出向量作为所述门控单元后的BLSTM层的输入,并由与当前口音数据对应的Softmax输出层输出当前口音数据的三音素状态的后验概率。
6.根据权利要求5所述的多口音语音识别方法,其特征在于,
当所述门控单元为加法型门控单元时,所述门控单元的特定运算为:
g(hi,va)=hi+Vva+b;
其中,hi为第i个BLSTM层的第一输出向量,va为当前口音数据的口音类别标签,g(hi,va)为门控单元运算后的第二输出向量,V为M×N的矩阵,hi和va的维度分别是M和N,b为偏置向量,M和N均为正整数。
7.根据权利要求5所述的多口音语音识别方法,其特征在于,
当所述门控单元为点乘型门控单元时,所述门控单元的特定运算为:
g(hi,va)=hi·Vva+b;
其中,hi为第i个BLSTM层的第一输出向量,va为当前口音数据的口音类别标签,g(hi,va)为门控单元运算后的第二输出向量,V为M×N的矩阵,hi和va的维度分别是M和N,b为偏置向量,M和N均为正整数。
8.根据权利要求4-7任一项所述的多口音语音识别方法,其特征在于,采用每一个口音数据类别的独热码作为每一个口音数据的类别标签。
9.根据权利要求5所述的多口音语音识别方法,其特征在于,采用小批量随机梯度下降方法对所述多口音声学模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911050896.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种结晶器内钢液流动的预测方法
- 下一篇:一种升降清洗过滤网的除尘装置





