[发明专利]语音识别方法、装置、计算机设备及存储介质有效

申请号：	201710445076.9	申请日：	2017-06-12
公开（公告）号：	CN107633842B	公开（公告）日：	2018-08-31
发明（设计）人：	梁浩;王健宗;程宁;肖京	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/14
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	王宁
地址：	518052 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音识别方法，所述方法包括：

获取待识别的语音数据；

提取所述语音数据中的Filter Bank特征和MFCC特征；

将所述MFCC特征作为训练后的GMM-HMM模型的输入数据，获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵；

将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动，包括：获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序；将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征，通过所述连接单元控制层与层之间的信息流动，获取输出的每一帧语音数据对应的音素状态上的后验概率；根据所述每一帧语音数据对应的后验概率确定所述待识别语音数据对应的后验概率矩阵；

将所述后验概率矩阵和所述第一似然概率矩阵作为训练后的HMM模型的输入数据，获取输出的第二似然概率矩阵；

根据所述第二似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。

2.根据权利要求1所述的方法，其特征在于，所述连接单元为sigmoid函数；所述将所述Filter Bank特征作为训练后的具有连接单元的LSTM模型的输入特征，获取所述具有连接单元的LSTM模型输出的后验概率矩阵，所述连接单元用于控制所述LSTM模型中层与层之间的信息流动，包括：

将所述Filter Bank特征作为所述训练后的具有连接单元的LSTM模型的输入特征；

根据所述LSTM模型中前一层神经元节点的状态和输出以及后一层神经元节点的输入确定层与层之间的连接单元所对应的sigmoid函数值；

根据所述层与层之间的连接单元所对应的sigmoid函数值，输出与所述FilterBank特征对应的后验概率矩阵。

3.根据权利要求1所述的方法，其特征在于，所述提取所述语音数据中的Filter Bank特征和MFCC特征的步骤包括：

将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱；

将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征，计算得到待识别语音数据的Filter Bank特征；

将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。

4.根据权利要求1所述的方法，其特征在于，在所述获取待识别的语音数据的步骤之前还包括：

采用训练语料库对高斯混合模型GMM和HMM进行训练，通过不断的迭代训练确定所述GMM模型对应的方差和均值；