[发明专利]语音识别方法、装置、电子设备和存储介质有效
| 申请号: | 202011219185.7 | 申请日: | 2020-11-04 |
| 公开(公告)号: | CN112382275B | 公开(公告)日: | 2023-08-15 |
| 发明(设计)人: | 赵银楼;张辽;蒋正翔 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/26;G10L15/14;G10L15/16 |
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 白雪静 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 识别 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种语音识别方法、装置、电子设备和存储介质,涉及语音技术领域及深度学习领域。具体实现方案为:获取待识别语音;获取待识别语音的声学特征和语言特征;将待识别语音输入至发音差异统计器以生成待识别语音对应的发音差异词对;以及根据发音差异词对、声学特征和语言特征生成待识别语音的文本信息。本申请通过挖掘发音差异词对,并将该发音差异词对与声学特征和语言特征一同输入至解码器进行识别,得到特定场景下待识别语音的文本信息,这样,使得语音识别系统可以从源头学到特定场景与简体中文之间的映射关系,无需额外训练翻译器进行效果提升,节省人力物力,可在原始系统的基础上进行扩展训练,降低中文语音识别系统的开发成本。
技术领域
本申请涉及语音技术领域及深度学习领域,尤其涉及一种语音识别方法、装置、电子设备和存储介质。
背景技术
相关技术中,实现针对特定场景的中文识别系统通常分为以下步骤:首先进行数据标注,包括相关音频,以及音频标注,相关场景文本。之后进行模型训练,包括声学模型训练、语言模型训练。然后进行构图,构造Look-ahead(是指解码器搜索路径时,用于计算语言模型得分,进行路径裁剪的技术),将声学模型、语言模型与解码器结合,形成最终的识别提。此外,由于目标场景结果资源的限制,要想获得好的效果,往往还需要训练一个翻译器将特定场景识别结果翻译成简体中文。
然而,目前训练针对特定场景的中文语音识别系统技术方案通常有以下缺点:1)项目周期长,因为实现该系统,按照上述方式,一般需要从头开始,这期间需要对模型进行选择、调试,同样会消耗大量人力物力;2)往往需要额外训练目标场景到简体中文的翻译系统,同样会消耗大量资源;3)由于是目标场景识别系统与翻译系统的结合,并不是强依赖关系,最终的效果受到二者共同的影响,增加了系统整合的困难程度。
发明内容
本申请提供了一种语音识别方法、装置、电子设备以及存储介质。
根据本申请的第一方面,提供了一种语音识别方法,包括:
获取待识别语音;
获取所述待识别语音的声学特征和语言特征;
将所述待识别语音输入至发音差异统计器以生成所述待识别语音对应的发音差异词对;以及
根据所述发音差异词对、所述声学特征和所述语言特征生成所述待识别语音的文本信息。
根据本申请的第二方面,提供了一种语音识别装置,包括:
第一获取模块,用于获取待识别语音;
第二获取模块,用于获取所述待识别语音的声学特征和语言特征;
第一生成模块,用于将所述待识别语音输入至发音差异统计器以生成所述待识别语音对应的发音差异词对;以及
第二生成模块,用于根据所述发音差异词对、所述声学特征和所述语言特征生成所述待识别语音的文本信息。
根据本申请的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请第一方面实施例所述的语音识别方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请第一方面实施例所述的语音识别方法。
根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本申请第一方面所述的语音识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011219185.7/2.html,转载请声明来源钻瓜专利网。





