[发明专利]一种基于注意力机制的语音识别方法、系统及装置在审

申请号：	202010829299.7	申请日：	2020-08-18
公开（公告）号：	CN111968622A	公开（公告）日：	2020-11-20
发明（设计）人：	袁进波	申请（专利权）人：	广州市优普科技有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L21/0208;G10L25/12;G10L25/24;G10L25/30;G10L25/45
代理公司：	深圳市创富知识产权代理有限公司 44367	代理人：	叶灿才
地址：	510700 广东省广州市黄***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制语音识别方法系统装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于注意力机制的语音识别方法、系统及装置，该方法包括：获取音频信息并对音频信息进行预处理，得到预处理后的音频；对预处理后的音频进行特征提取，得到特征向量；采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模，得到语音识别模型；将特征向量输入到识别模型，输出语音识别结果。该系统包括：音频接收与预处理模块、音频特征提取模块、深度学习建模模块和结果输出模块。通过使用本发明，可以解决语音识别准确率较低的问题。本发明作为一种基于注意力机制的语音识别方法、系统及装置，可广泛应用于语音识别领域。

技术领域

本发明涉及语音识别领域，尤其涉及一种基于注意力机制的语音识别方法、系统及装置。

背景技术

目前，经典语音识别技术主要步骤为语音预处理，特征提取，建立声学模型，建立音素模型，建立语言模型，最终输出对应文字。

传统的基于统计的HMM声学模型，N元组语言模型的发明，已经使得语音识别技术可以在小规模词汇量上使用。2000年左右，GMM-HMM模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。现有的经典语音识别结束主要依靠隐马尔可夫模型进行声学模型和语言模型的建立，对于各自的模型，工程师需提供不同类型的已标注数据集，同时模型解码速度较慢，而且模型间的信息无法共享，准确率较低。具体来说，在训练这一类的模型时，训练样本的标注不仅仅是原本的文本，还需要对文本进一步的拆解成为音素投入训练，这对于标注部分的工作就会造成极大的挑战。

发明内容

为了解决上述技术问题，本发明的目的是提供一种基于注意力机制的语音识别方法、系统及装置，解决语音识别准确率较低的问题。

本发明所采用的第一技术方案是：一种基于注意力机制的语音识别方法，包括以下步骤：

获取音频信息并对音频信息进行预处理，得到预处理后的音频；

对预处理后的音频进行特征提取，得到特征向量；

采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模，得到语音识别模型；

将特征向量输入到识别模型，输出语音识别结果。

进一步，所述预处理包括于预加重处理、分帧处理、加窗处理、过滤音频噪音点处理和增强人声处理。

进一步，所述特征提取的特征类型为梅尔频率倒谱系数，所述对预处理后的音频进行特征提取，得到特征向量这一步骤，其具体包括：

将预处理后的音频通过一组滤波器组，得到梅尔频率倒谱系数；

通过离散余弦变换将梅尔频率倒谱系数相关并降维，得到多个独立固定维度的特征向量。

进一步，所述滤波器组为40个三角形滤波器，每个滤波在中心频率的响应为1。