[发明专利]语音识别方法、装置、电子设备和存储介质有效

申请号：	202011219185.7	申请日：	2020-11-04
公开（公告）号：	CN112382275B	公开（公告）日：	2023-08-15
发明（设计）人：	赵银楼;张辽;蒋正翔	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/26;G10L15/14;G10L15/16
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	白雪静
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种语音识别方法、装置、电子设备和存储介质，涉及语音技术领域及深度学习领域。具体实现方案为：获取待识别语音；获取待识别语音的声学特征和语言特征；将待识别语音输入至发音差异统计器以生成待识别语音对应的发音差异词对；以及根据发音差异词对、声学特征和语言特征生成待识别语音的文本信息。本申请通过挖掘发音差异词对，并将该发音差异词对与声学特征和语言特征一同输入至解码器进行识别，得到特定场景下待识别语音的文本信息，这样，使得语音识别系统可以从源头学到特定场景与简体中文之间的映射关系，无需额外训练翻译器进行效果提升，节省人力物力，可在原始系统的基础上进行扩展训练，降低中文语音识别系统的开发成本。

技术领域

本申请涉及语音技术领域及深度学习领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

相关技术中，实现针对特定场景的中文识别系统通常分为以下步骤：首先进行数据标注，包括相关音频，以及音频标注，相关场景文本。之后进行模型训练，包括声学模型训练、语言模型训练。然后进行构图，构造Look-ahead(是指解码器搜索路径时，用于计算语言模型得分，进行路径裁剪的技术)，将声学模型、语言模型与解码器结合，形成最终的识别提。此外，由于目标场景结果资源的限制，要想获得好的效果，往往还需要训练一个翻译器将特定场景识别结果翻译成简体中文。

然而，目前训练针对特定场景的中文语音识别系统技术方案通常有以下缺点：1)项目周期长，因为实现该系统，按照上述方式，一般需要从头开始，这期间需要对模型进行选择、调试，同样会消耗大量人力物力；2)往往需要额外训练目标场景到简体中文的翻译系统，同样会消耗大量资源；3)由于是目标场景识别系统与翻译系统的结合，并不是强依赖关系，最终的效果受到二者共同的影响，增加了系统整合的困难程度。

发明内容

本申请提供了一种语音识别方法、装置、电子设备以及存储介质。

根据本申请的第一方面，提供了一种语音识别方法，包括：

获取待识别语音；

获取所述待识别语音的声学特征和语言特征；

将所述待识别语音输入至发音差异统计器以生成所述待识别语音对应的发音差异词对；以及

根据所述发音差异词对、所述声学特征和所述语言特征生成所述待识别语音的文本信息。

根据本申请的第二方面，提供了一种语音识别装置，包括：

第一获取模块，用于获取待识别语音；

第二获取模块，用于获取所述待识别语音的声学特征和语言特征；

第一生成模块，用于将所述待识别语音输入至发音差异统计器以生成所述待识别语音对应的发音差异词对；以及

第二生成模块，用于根据所述发音差异词对、所述声学特征和所述语言特征生成所述待识别语音的文本信息。