[发明专利]一种在线的端到端自动语音识别方法在审
申请号: | 202111531205.9 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114255744A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 宋虎;王建华;高明;尹青山 | 申请(专利权)人: | 山东新一代信息产业技术研究院有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 陈婷婷 |
地址: | 250100 山东省济南市高新*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 端到端 自动 语音 识别 方法 | ||
1.一种在线的端到端自动语音识别方法,其特征在于采用联合CTC/注意力结构,并使用基于块的注意力机制,使编码器流式地工作,以及动态块技术来获得不定长的未来上下文信息;该方法的实现包括:
首先提取音频序列的FBank特征并基于动态块技术对序列进行分块,使用基于conformer的编码器获得基于块的注意力,对序列块进行编码;
然后,CTC解码器将编码器的输出作为输入,使用前缀波束搜索进行第一路的解码,获得数个候选;
AED解码器将CTC的候选输出进行重新评分,进行第二路的解码,以获得最终推理结果;
另外,通过一个额外编码器对编码器的输出进行进一步编码,为第二路AED解码器产生更好的输入。
2.根据权利要求1所述的一种在线的端到端自动语音识别方法,其特征在于本方法通过两路模型实现,其中,
第一路使用CTC编码器产生n个最佳候选,第二路首先使用一个额外编码器对动态块编码器的输出进行进一步的编码,然后使用基于注意力的编码-解码模型AED确定最终的输出;
该两路模型包括四部分:动态块编码器、CTC解码器、额外编码器和AED解码器,
动态块编码器使用动态块技术来获得流式的输出,由一系列的Conformer块堆叠而成的,在动态块编码器的顶端,使用因果卷积来配合动态块技术;
CTC解码器使用前缀波束搜索来产生n个最佳候选,它由线性层和softmax层组成的,使用CTC损失函数作为训练目标;
额外编码器用于使动态块编码器的输出更适合于第二路的AED解码器,由一系列的transformer组成的;
AED解码器对第一路CTC解码器产生的n个最佳候选进行rescoring,输出最终结果,也是由一系列的transformer组成的。
3.根据权利要求2所述的一种在线的端到端自动语音识别方法,其特征在于所述动态块编码器的工作过程如下,
1)、首先,把输入语音序列提取log-mel filterbank能量特征,并按输入时间顺序分割为一个个块,记作xi=(xi1,...,xiT),其中T表示语音块的长度,i表示块的序列;
采用chunk-wise自注意力,将当前序列块之前Nl帧的输入作为历史上下文信息,将当前块之后Nr帧的输入作为未来上下文信息,设当前块的长度为chunksize,则最终动态块编码器的感受野为Nl+chunksize+Nr;
采用WeNet中的动态块技术,训练中对不同批次的序列块长度进行随机选择,公式如下:
其中,lmax表示最大语音长度,U表示服从均匀分布,Nr表示当前序列块之后输入的帧,x为某一随机数;
由于采用了动态块技术,模型捕捉到了不同长度的信息,因此可以充分学习如何在不同长度的未来上下文可见时进行准确的预测;这样,整个编码器的延迟主要与chunksize和Nr有关;
2)、动态块编码器逐块地处理输入,使用conformer捕捉上下文信息,并采用因果卷积代替conformer中的普通卷积;
3)、为了控制编码器的延迟,编码器的顶部放置一个一维卷积层,卷积核尺寸为Nr+1,这样,整个编码器的延迟主要与chunksize和Nr有关;其中,未来上下文信息引入的延迟为40×(Nr+1),40表示下采样率为4,帧移为10ms。
4.根据权利要求3所述的一种在线的端到端自动语音识别方法,其特征在于输入语音序列提取log-mel filterbank能量特征的特征维数为512。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东新一代信息产业技术研究院有限公司,未经山东新一代信息产业技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111531205.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示屏及其制造方法、显示装置及车辆
- 下一篇:压控振荡器及其锁相环