[发明专利]一种在线的端到端自动语音识别方法在审
申请号: | 202111531205.9 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114255744A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 宋虎;王建华;高明;尹青山 | 申请(专利权)人: | 山东新一代信息产业技术研究院有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 陈婷婷 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 端到端 自动 语音 识别 方法 | ||
本发明公开了一种在线的端到端自动语音识别方法,属于语音识别技术领域,用联合CTC/注意力结构,并使用基于块的注意力机制,使编码器流式地工作,以及动态块技术来获得不定长的未来上下文信息;该方法的实现包括:首先提取音频序列的FBank特征并基于动态块技术对序列进行分块,使用基于conformer的编码器获得基于块的注意力,对序列块进行编码;然后,CTC解码器将编码器的输出作为输入,使用前缀波束搜索进行第一路的解码,获得数个候选;AED解码器将CTC的候选输出进行重新评分,进行第二路的解码,以获得最终推理结果。本发明能够保证精度和低延迟的条件下,将端到端模型产品化并部署到端侧。
技术领域
本发明涉及语音识别技术领域,具体地说是一种在线的端到端自动语音识别方法。
背景技术
随着人工智能技术的飞速发展,自动语音识别已经进入工业、通信、家庭服务、消费电子产品等多个领域。目前,自动语音识别主要用于会议字幕、手机输入法、智能助手语音交互和各种后台数据转录等场景中。自动语音识别技术主要分为流式任务和非流式任务两种。流式任务着眼于识别的实时性,主要的解决方案有CTC、RNN-T和一些基于注意力机制的变体。而非流式任务的主要解决方案主要是基于注意力机制的编码解码(AED)模型,其解码思路为自回归的解码方式,包括LAS、Transformer和Conformer等。
自动语音识别(ASR)的准确性自深度神经网络出现后得到了显著提升。基于DNN的混合模型使用DNN代替传统的GMM模型,同时保留了声学模型、语言模型、词汇模型等。最近,自动语音识别领域出现了从基于DNN的混合模型到端到端模型的趋势,端到端模型在单一模型内直接将输入的语言序列转换为输出符号序列,而且摒弃了传统混合模型中的各种模型(如前所述)。端到端模型有几个主要的优点:首先,端到端模型使用一个损失函数对整个网络进行优化,而传统混合模型对网络中的每个部分进行单独优化,无法保证全局最优;其次,端到端加密模型直接输出字符或单词,大大简化了语音识别管道设计;第三,由于ASR使用单一网络,因此端到端模型比传统的混合模型更紧凑。因此,端到端模型可以以较高的准确率和较低的延迟部署在设备上。但是,由于传统的混合模型经历了数十年的优化用以解决实际需求(比如流式、适应能力、延迟等),因此,基于DNN的混合模型仍然大量应用于商用自动语音识别系统中。当前,端到端模型亟待解决的问题是,如何在保证精度和低延迟的条件下,成功地产品化并部署到端侧。
发明内容
本发明的技术任务是针对以上不足之处,提供一种在线的端到端自动语音识别方法及系统,能够保证精度和低延迟的条件下,将端到端模型产品化并部署到端侧。
本发明解决其技术问题所采用的技术方案是:
一种在线的端到端自动语音识别方法,采用联合CTC/注意力结构,并使用基于块的注意力机制,使编码器流式地工作,以及动态块技术来获得不定长的未来上下文信息,这样模型的延迟主要与块的长度和右侧序列的长度有关;
该方法的实现包括:
首先提取音频序列的FBank特征并基于动态块技术对序列进行分块,使用基于conformer的编码器获得基于块的注意力,对序列块进行编码;
然后,CTC解码器将编码器的输出作为输入,使用前缀波束搜索进行第一路的解码,获得数个候选;
AED解码器将CTC的候选输出进行重新评分,进行第二路的解码,以获得最终推理结果;
另外,通过一个额外编码器对编码器的输出进行进一步编码,为第二路AED解码器产生更好的输入。
进一步的,本方法通过两路模型实现,其中,
第一路使用CTC编码器产生n个最佳候选,第二路首先使用一个额外编码器对动态块编码器的输出进行进一步的编码,然后使用基于注意力的编码-解码模型AED确定最终的输出;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东新一代信息产业技术研究院有限公司,未经山东新一代信息产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111531205.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示屏及其制造方法、显示装置及车辆
- 下一篇:压控振荡器及其锁相环