[发明专利]构建声学模型的方法、语音识别系统和语音识别方法有效

专利信息
申请号: 202011536618.1 申请日: 2020-12-23
公开(公告)号: CN112669824B 公开(公告)日: 2022-04-15
发明(设计)人: 薛少飞 申请(专利权)人: 思必驰科技股份有限公司
主分类号: G10L15/06 分类号: G10L15/06;G10L15/16;G10L15/02
代理公司: 北京商专永信知识产权代理事务所(普通合伙) 11400 代理人: 黄谦;车江华
地址: 215123 江苏省苏州市苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 构建 声学 模型 方法 语音 识别 系统
【说明书】:

发明公开一种构建声学模型的方法,包括:预先训练门控残差DFSMN神经网络模块;顺序连接多个所述门控残差DFSMN神经网络模块;为所述顺序连接的多个所述门控残差DFSMN神经网络模块配置输入层和输出层构成所述声学模块。本发明实施例中首先预先训练门控残差DFSMN神经网络模块,然后再将多个顺序连接构成深度门控残差DFSMN网络作为声学模型。由于预先训练的门控残差DFSMN神经网络模块本身具备了多层DFSMN,因此得到的具有多个门控残差DFSMN神经网络模块的声学模型所包含的DFSMN层可达到上百层。而实际进行训练时只需要训练相对较小的门控残差DFSMN神经网络模块,最后通过堆叠的方式得到深度声学模型。因此既降低了训练学习的成本,同时还确保了最终所得到的声学模型的性能。

技术领域

本发明涉及语音识别技术领域,尤其涉及一种构建声学模型的方法、语音识别系统和语音识别方法。

背景技术

语音识别,通俗来讲,就是将一段语音信号转换成对应的文本信息。具体来说,语音识别是从一段连续声波中采样,将每个采样值量化;然后对量化的采样音频进行分帧,对于每一帧,抽取出一个描述频谱内容的特征向量;最后根据语音信号的特征识别语音所代表的单词。

语音识别的整个流程,主要包含特征提取和解码(声学模型、字典、语言模型)部分。

特征提取:从语音波形中提取出随时间变化的语音特征序列(即将声音信号从时域转换到频域),为声学模型提供合适的特征向量。主要算法有线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)。

声学模型:根据声学特性计算每一个特征向量在声学特征上的得分,输入是特征向量,输出为音素信息。最常用的声学建模方式是隐马尔科夫模型(HMM),基于深度学习的发展,深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型在观测概率的建模中取得了非常好的效果。

字典:字或者词与音素的对应,中文就是拼音和汉字的对应,英文就是音标与单词的对应。(音素,单词的发音由音素构成。对英语来说,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,汉语一般直接用全部声母和韵母作为音素集)。

语言模型:通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。语音识别中,最常见的语言模型是N-Gram。近年,深度神经网络的建模方式也被应用到语言模型中,比如基于CNN及RNN的语言模型。

解码:通过声学模型、字典、语言模型对提取特征后的音频数据进行文字输出。

在语音识别整个流程中,声学模型作为识别系统的底层模型,它占据着语音识别大部分的计算开销,决定着语音识别系统的性能。所以,声学模型是语音识别系统中最关键的一部分。

DFSMN是语音识别声学模型建模的一种模型结构,经历了FSMN到cFSMN再到DFSMN的演化历程(网络结构参见图1a、图1b和图1c),FSMN最早在2016年被提出,并被用于语言模型、声学模型建模,2018年DFSMN结构被提出,并应用于大规模连续语音识别。DFSMN是一种能够较好的均衡识别效果和计算开销的模型结构,在大规模语音识别应用中有着较高的性价比。

如图1a所示为FSMN的网络结构示意图,包括输入层、隐藏层和输出层,并且在隐藏层处配置有记忆模块,记忆模块的作用与LSTM门结构类似,可以用来记住t时刻输入信息的相邻时刻序列的信息。根据记忆模块编码方式的区别,FSMN又可以分为sFSMN和vFSMN,前者代表以标量系数编码,后者代表以向量系数编码。

如图2所示是以记住前N个时刻信息为例的网络结构图。对应于sFSMN和vFSMN的计算公式分别如下:

其中,(1)式代表的是标量乘积,(2)式代表的是Hadamard积。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011536618.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top