[发明专利]语音识别方法、装置、计算机设备和存储介质在审

申请号：	202210831799.3	申请日：	2022-07-15
公开（公告）号：	CN115312043A	公开（公告）日：	2022-11-08
发明（设计）人：	欧智坚;安柯宇	申请（专利权）人：	清华大学
主分类号：	G10L15/16	分类号：	G10L15/16;G10L15/26
代理公司：	北京华进京联知识产权代理有限公司 11606	代理人：	王佩
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种语音识别方法、装置、计算机设备和存储介质。所述方法包括：获取待识别语音的当前帧和当前帧之前的历史帧，并将当前帧和当前帧之前的历史帧作为第一分块，进而根据第一分块和目标合成预测器，模拟出第一分块对应的未来帧，从而根据第一分块、未来帧和目标声学模型，确定待识别语音的语音识别结果。采用本方法能够降低识别的延迟时间。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种语音识别方法、装置、计算机设备和存储介质。

背景技术

自动语音识别(automatic speech recognition,ASR)指的是将语音转录为文本的技术。在实际生产生活环境中，一个功能良好的语音识别系统不仅需要有较高的识别准确率，还需要有较低的识别延迟，即需要语音识别系统在用户讲话的过程中同步进行识别，而不是等到用户讲完后再开始识别。

为了实现同步识别，目前的语音识别系统都采用分块模型，也就是说，一句话会被划分为多个分块后进行识别。为了提高分块识别的准确率，目前的语音识别方法中会为每个分块附加一定的历史帧和未来帧，以提供该分块的上下文信息。

然而，现有的基于分块模型中的语音识别方法中，必须等到一定数量的未来帧到达后再能开始识别，从而增加了识别的延迟时间。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低识别的延迟时间的语音识别方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种语音识别方法。所述方法包括：

获取待识别语音的当前帧和该当前帧之前的历史帧，并将该当前帧和该当前帧之前的历史帧作为第一分块；

根据该第一分块和目标合成预测器，模拟出该第一分块对应的未来帧；

根据该第一分块、该未来帧和目标声学模型，确定该待识别语音的语音识别结果。