[发明专利]构建声学模型的方法、语音识别系统和语音识别方法有效
申请号: | 202011536618.1 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112669824B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 薛少飞 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/02 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 声学 模型 方法 语音 识别 系统 | ||
本发明公开一种构建声学模型的方法,包括:预先训练门控残差DFSMN神经网络模块;顺序连接多个所述门控残差DFSMN神经网络模块;为所述顺序连接的多个所述门控残差DFSMN神经网络模块配置输入层和输出层构成所述声学模块。本发明实施例中首先预先训练门控残差DFSMN神经网络模块,然后再将多个顺序连接构成深度门控残差DFSMN网络作为声学模型。由于预先训练的门控残差DFSMN神经网络模块本身具备了多层DFSMN,因此得到的具有多个门控残差DFSMN神经网络模块的声学模型所包含的DFSMN层可达到上百层。而实际进行训练时只需要训练相对较小的门控残差DFSMN神经网络模块,最后通过堆叠的方式得到深度声学模型。因此既降低了训练学习的成本,同时还确保了最终所得到的声学模型的性能。
技术领域
本发明涉及语音识别技术领域,尤其涉及一种构建声学模型的方法、语音识别系统和语音识别方法。
背景技术
语音识别,通俗来讲,就是将一段语音信号转换成对应的文本信息。具体来说,语音识别是从一段连续声波中采样,将每个采样值量化;然后对量化的采样音频进行分帧,对于每一帧,抽取出一个描述频谱内容的特征向量;最后根据语音信号的特征识别语音所代表的单词。
语音识别的整个流程,主要包含特征提取和解码(声学模型、字典、语言模型)部分。
特征提取:从语音波形中提取出随时间变化的语音特征序列(即将声音信号从时域转换到频域),为声学模型提供合适的特征向量。主要算法有线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)。
声学模型:根据声学特性计算每一个特征向量在声学特征上的得分,输入是特征向量,输出为音素信息。最常用的声学建模方式是隐马尔科夫模型(HMM),基于深度学习的发展,深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型在观测概率的建模中取得了非常好的效果。
字典:字或者词与音素的对应,中文就是拼音和汉字的对应,英文就是音标与单词的对应。(音素,单词的发音由音素构成。对英语来说,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集)。
语言模型:通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。语音识别中,最常见的语言模型是N-Gram。近年,深度神经网络的建模方式也被应用到语言模型中,比如基于CNN及RNN的语言模型。
解码:通过声学模型、字典、语言模型对提取特征后的音频数据进行文字输出。
在语音识别整个流程中,声学模型作为识别系统的底层模型,它占据着语音识别大部分的计算开销,决定着语音识别系统的性能。所以,声学模型是语音识别系统中最关键的一部分。
DFSMN是语音识别声学模型建模的一种模型结构,经历了FSMN到cFSMN再到DFSMN的演化历程(网络结构参见图1a、图1b和图1c),FSMN最早在2016年被提出,并被用于语言模型、声学模型建模,2018年DFSMN结构被提出,并应用于大规模连续语音识别。DFSMN是一种能够较好的均衡识别效果和计算开销的模型结构,在大规模语音识别应用中有着较高的性价比。
如图1a所示为FSMN的网络结构示意图,包括输入层、隐藏层和输出层,并且在隐藏层处配置有记忆模块,记忆模块的作用与LSTM门结构类似,可以用来记住t时刻输入信息的相邻时刻序列的信息。根据记忆模块编码方式的区别,FSMN又可以分为sFSMN和vFSMN,前者代表以标量系数编码,后者代表以向量系数编码。
如图2所示是以记住前N个时刻信息为例的网络结构图。对应于sFSMN和vFSMN的计算公式分别如下:
其中,(1)式代表的是标量乘积,(2)式代表的是Hadamard积。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011536618.1/2.html,转载请声明来源钻瓜专利网。