[发明专利]基于连接时序分类和自注意力机制的端到端语音识别方法在审
| 申请号: | 202011101902.6 | 申请日: | 2020-10-15 |
| 公开(公告)号: | CN112509564A | 公开(公告)日: | 2021-03-16 |
| 发明(设计)人: | 庞伟;王亮;陆生礼;狄敏;姚志强 | 申请(专利权)人: | 江苏南大电子信息技术股份有限公司;东南大学—无锡集成电路技术研究所 |
| 主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/183;G10L15/06;G10L15/02 |
| 代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210019 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 连接 时序 分类 注意力 机制 端到端 语音 识别 方法 | ||
本发明公开了一种基于连接时序分类和自注意力机制的端到端语音识别方法,使用连接时序分类CTC和自注意力机制SA混合机制对英文单词或汉字直接进行建模,无需前处理或后处理,输出结果直接对应正确的英文序列或汉字序列。该方法共享同一个编码器网络,编码器的输出使用CTC训练准则,同时编码器的输出也作为解码器的输入,实现编码器与解码器之间的注意力关系,解码器使用交叉熵训练准则进行训练,最后以加权的方式赋予两种训练准则分配不同的权重。本发明不仅可以加快模型的收敛速度,获得更加准确的对齐属性,还可以获取输入之间的内部联系,提升语音识别系统的准确率及鲁棒性。
技术领域
本发明公开了一种基于连接时序分类和自注意力机制的端到端语音识别方法,涉及语音识别技术,属于计算、推算、计数的技术领域。
背景技术
近年来,随着计算能力的提升、数据的积累以及算法的进步,深度学习技术正在逐渐取代传统机器学习以概率为基础的研究,目前计算机视觉、自然语言处理和计算机听觉等领域,正成为当今人工智能领域最主要的研究热点,其中语音识别技术的发展就得益于深度学习技术飞速发展带来的红利。自2011年深度神经网络(Deep Neural Network,DNN)取代高斯混合模型(Gaussian Mixture Model,GMM)对语音的观察概率进行建模来,语音识别开始在大词汇量连续语音识别上获得成功,识别效果取得了近10年来最大的突破。至今,在探索语音识别的道路上,诞生出众多的技术,使得语音识别的准确率超过了人类水平。但该结果的背后是采用了多种复杂的技术,并且在服务器端进行部署,使用了大量的存储空间和计算资源,同时还会消耗大量的能量。
现有的语音识别方法主要采用长短时记忆网络(Long Short-Term Memory,LSTM)对语音进行建模,但是该方法的缺点是无法并行训练,当前输入处理完毕后才能进行下一步输入,训练时间太长,且容易产生梯度消失或弥散等问题;并且当输入序列很长时,只能记住100量级的信息,而无法记住1000量级的信息或序列。它最大的缺点是对硬件的要求特别高,需要存储带宽绑定计算,这是硬件设计者的噩梦,最终限制了该解决方案的适用性。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于连接时序分类和自注意力机制的端到端语音识别方法,该方法使用CTC对语音进行对齐,同时利用SA对语音内之间的联系进行解析,联合两者的优势,既加快训练速度也简化模型,提高了鲁棒性。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于连接时序分类和自注意力机制的端到端语音识别方法,采用编码器-解码器的结构为主体框架,编码器-解码器的结构包括编码器子网络和解码器子网络,该方法共享同一个编码器网络,对编码器网络进行训练后使用语音识别的解码器直接输出相应的解码序列;同时,将编码器提取出的高层抽象特征作为解码器输入的一部分,与解码器联合训练。两个子网络分别使用不同的训练准则,然后对损失函数的输出赋予不同的权重,通过两者的联合优化,对模型参数进行不同程度的更新。
编码器-解码器结构使用转换器transformer结构实现,该结构通过堆叠多层transformer实现对输入语音和输入标签的深层次建模,并挖掘语音和文本之间的联系。
语音识别的解码器使用束搜索的方式进行解码,解码结果直接对应正确的单词或汉字序列,且解码结果由CTC进行解码。使用英文单词或汉字等大粒度单元对声学模型进行建模,英文单词或汉字一般选取训练集、测试集中出现的以及常见的汉字作为输出分类结果。
具体包括以下步骤:
步骤1、数据准备与特征提取:采集语音数据,得到语音数据集;首先使用梅尔滤波器组算法对语音数据集中语音进行特征提取;然后使用离散傅里叶变换将语音从时域转换到频域,从而能够更好的观察到语音的特征;最终提取出的特征作为网络的输入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏南大电子信息技术股份有限公司;东南大学—无锡集成电路技术研究所,未经江苏南大电子信息技术股份有限公司;东南大学—无锡集成电路技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011101902.6/2.html,转载请声明来源钻瓜专利网。





