[发明专利]构建声学模型的方法、语音识别系统和语音识别方法有效
申请号: | 202011536618.1 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112669824B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 薛少飞 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/02 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 构建 声学 模型 方法 语音 识别 系统 | ||
1.一种构建声学模型的方法,包括:
预先训练门控残差DFSMN神经网络模块;
顺序连接多个所述门控残差DFSMN神经网络模块;
为顺序连接的多个所述门控残差DFSMN神经网络模块配置输入层和输出层构成所述声学模型。
2.根据权利要求1所述的方法,其特征在于,所述输入层与所述多个门控残差DFSMN神经网络模块之间配置有第一深度神经网络层;所述输出层与所述多个门控残差DFSMN神经网络模块之间配置有第二深度神经网络层。
3.根据权利要求2所述的方法,其特征在于,所述预先训练门控残差DFSMN神经网络模块包括:
顺序连接多个DFSMN神经网络层以构成所述门控残差DFSMN神经网络模块;
在所述门控残差DFSMN神经网络模块的输入端和输出端之间设置由所述门控残差DFSMN神经网络模块的输出控制的第一门控;
在所述门控残差DFSMN神经网络模块的输入端和输出端之间设置由所述门控残差DFSMN神经网络模块的输入控制的第二门控;
根据所述门控残差DFSMN神经网络模块的输入和输出以及所述第一门控和所述第二门控的输出确定输入音频特征的音素信息。
4.根据权利要求3所述的方法,其特征在于,所述门控残差DFSMN神经网络模块的输入端和所述第一门控之间设置有输出控制网络;所述门控残差DFSMN神经网络模块的输入端和所述第二门控之间设置有输入控制网络。
5.根据权利要求4所述的方法,其特征在于,还包括:对所述音素信息进行归一化处理。
6.根据权利要求5所述的方法,其特征在于,所述音素信息由以下公式确定:
gint=σ(WinFint(xt))
goutt=σ(WoutFoutt(xt))
其中,xt是门控残差DFSMN神经网络模块的输入,goutt是第一门控,gint是第二门控;Fint是输入控制网络中的DFSMN神经网络层,Foutt是输出控制网络中的DFSMN神经网络层;FDt代表门控残差DFSMN神经网络模块中核心的多层DFSMN操作,σ代表sigmoid函数,mt是经过归一化处理之前的音素信息。
7.一种语音识别系统,包括:
特征提取网络,用于从音频信号中提取声学特征;
根据权利要求1-6中任一项所述方法所构建的声学模型,用于将所述声学特征转换为相应的音素信息;
字典,用于将所述音素信息转换为相应的文本信息;
语言模型,用于确定对应于所述文本信息的文本内容。
8.一种语音识别方法,包括:采用权利要求7所述的语音识别系统将待识别音频信号识别为相应的文本内容。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任意一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011536618.1/1.html,转载请声明来源钻瓜专利网。