[发明专利]一种改进的端到端语音识别方法有效
| 申请号: | 201911273709.8 | 申请日: | 2019-12-12 | 
| 公开(公告)号: | CN111048082B | 公开(公告)日: | 2022-09-06 | 
| 发明(设计)人: | 严勇杰;邓科;陈平;王煊 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 | 
| 主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/183;G10L15/16;G10L15/06 | 
| 代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 | 
| 地址: | 210007 *** | 国省代码: | 江苏;32 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 一种 改进 端到端 语音 识别 方法 | ||
本发明提供了一种改进的端到端语音识别方法,该方法结合卷积神经网络和自注意力机制,利用CTC训练准则训练端到端的语音识别模型,模型主要由三部分组成:(1)深度二维卷积部分;(2)自注意力部分;(3)全连接层;该模型第一部分通过二维卷积有效提取语音信号时间轴和频域轴的特征,具有平移不变性,第二部分利用自注意力机制使得语音信号能够充分结合上下文,第三部分则将每帧语音特征进行分类,最后利用CTC训练准则更新模型参数。该模型创新性地将自注意力机制加入到神经网络‑CTC框架中,实现了端到端的语音识别,并使得识别效果得到改善。
技术领域
本发明属于语音识别领域,具体涉及一种改进的端到端语音识别方法。
背景技术
人们对语音识别技术的研究始于上个世纪50年代,目的是接收人类的语音并让机器理解人类的意图,起初人们进行孤立词和音节的简单识别,上世纪60年代开始有了语音识别方面系统性的理论,在计算机出现后人们则从硬件转换到了构建仿真软件进行语音识别。语音识别的算法则经历了以动态伸缩算法为代表的模式匹配算法到以隐马尔可夫为代表的统计模型算法,再到如今的基于机器学习的端到端语音识别算法这一过程。传统的基于GMM-HMM的语音识别模型取得了不错的成果,但是由于GMM模型是浅层模型无法准确表示语音信号的分布,而HMM模型构建过程复杂,需要对齐操作等,所以人们基于神经网络提出了端到端语音识别模型,即直接将语音信号映射到文字序列,无需数据标记对齐,发音字典等,使得构建过程简化的同时提高了识别率。
目前端到端模型分为CTC模型和Seq-to-Seq模型,其中CTC模型采用深度神经网络CNN或RNN来进行语音信号的分布,能够较为准确的表示语音信号的特征分布,传统语音识别对于每一帧的数据需要知道对应的label才能进行有效的训练,训练之前需要做语音对齐的预处理,需要反复迭代,比较耗时。采用CTC作为损失函数的声学模型训练,只需要一个输入序列X和一个输出序列Y既可以训练,无需对齐标注,直接输出序列预测的概率,无需外部的后续处理。
CTC作为模型训练准则引入了空白机制,即将一个空白符号加入到字符集中分隔不同的字符,在训练过程中插入标签中,通过产生重复的字符使得原本不等长的输入序列和输出序列一对一对应,所以要求训练的标签长度小于输入数据的长度。最后在解码时通过去除空白符号和去除重复符号的方式获得数据标签。训练的主要过程是先利用神经网络算出每个时间步的每个标签的概率输出,再通过前向后向算法计算出可能标签字符序列的总概率,最后以总概率为损失函数并利用反向传播算法计算梯度,从而更新神经网络的参数。
CTC作为训练准则需要与神经网络相结合,通常使用CNN或RNN作为预测模型,CNN在时间和频率两个维度上对语音信号进行卷积,具有平移不变性,鲁棒性强。RNN能够捕捉序列的上下文关系,适用于时间建模,但是如果序列过长则会出现梯度消失或梯度爆炸的现象,而自注意力机制的提出取代了RNN直接利用注意力机制。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种改进的端到端语音识别方法,包括如下步骤:
步骤1、获取语音及其转录文本数据集,对语音数据进行梅尔声谱特征提取,提取结果作为输入特征,由转录文本获取标记集和词典;
步骤2、构建模型:所述模型包括卷积层、自注意力层和全连接层,利用联结时间分类(CTC)损失函数作为模型的损失函数,利用反向传播算法更新模型参数,得到训练好的模型;
步骤3、利用训练好的模型将语音特征序列作为输入得到输出,将输出结果进行解码得到最终的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911273709.8/2.html,转载请声明来源钻瓜专利网。





