[发明专利]一种基于注意力机制的语音识别方法、系统及装置在审
申请号: | 202010829299.7 | 申请日: | 2020-08-18 |
公开(公告)号: | CN111968622A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 袁进波 | 申请(专利权)人: | 广州市优普科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L21/0208;G10L25/12;G10L25/24;G10L25/30;G10L25/45 |
代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 叶灿才 |
地址: | 510700 广东省广州市黄*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 语音 识别 方法 系统 装置 | ||
本发明公开了一种基于注意力机制的语音识别方法、系统及装置,该方法包括:获取音频信息并对音频信息进行预处理,得到预处理后的音频;对预处理后的音频进行特征提取,得到特征向量;采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模,得到语音识别模型;将特征向量输入到识别模型,输出语音识别结果。该系统包括:音频接收与预处理模块、音频特征提取模块、深度学习建模模块和结果输出模块。通过使用本发明,可以解决语音识别准确率较低的问题。本发明作为一种基于注意力机制的语音识别方法、系统及装置,可广泛应用于语音识别领域。
技术领域
本发明涉及语音识别领域,尤其涉及一种基于注意力机制的语音识别方法、系统及装置。
背景技术
目前,经典语音识别技术主要步骤为语音预处理,特征提取,建立声学模型,建立音素模型,建立语言模型,最终输出对应文字。
传统的基于统计的HMM声学模型,N元组语言模型的发明,已经使得语音识别技术可以在小规模词汇量上使用。2000年左右,GMM-HMM模型的序列鉴别性训练方法的提出又进一步提升了语音识别的准确率。现有的经典语音识别结束主要依靠隐马尔可夫模型进行声学模型和语言模型的建立,对于各自的模型,工程师需提供不同类型的已标注数据集,同时模型解码速度较慢,而且模型间的信息无法共享,准确率较低。具体来说,在训练这一类的模型时,训练样本的标注不仅仅是原本的文本,还需要对文本进一步的拆解成为音素投入训练,这对于标注部分的工作就会造成极大的挑战。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于注意力机制的语音识别方法、系统及装置,解决语音识别准确率较低的问题。
本发明所采用的第一技术方案是:一种基于注意力机制的语音识别方法,包括以下步骤:
获取音频信息并对音频信息进行预处理,得到预处理后的音频;
对预处理后的音频进行特征提取,得到特征向量;
采用循环神经网络并结合CTC算法和注意力机制对声学模型和语言模型进行端对端建模,得到语音识别模型;
将特征向量输入到识别模型,输出语音识别结果。
进一步,所述预处理包括于预加重处理、分帧处理、加窗处理、过滤音频噪音点处理和增强人声处理。
进一步,所述特征提取的特征类型为梅尔频率倒谱系数,所述对预处理后的音频进行特征提取,得到特征向量这一步骤,其具体包括:
将预处理后的音频通过一组滤波器组,得到梅尔频率倒谱系数;
通过离散余弦变换将梅尔频率倒谱系数相关并降维,得到多个独立固定维度的特征向量。
进一步,所述滤波器组为40个三角形滤波器,每个滤波在中心频率的响应为1。
进一步,所述循环神经网络采用双向的残差长短时记忆层。
进一步,所述将特征向量输入到识别模型,输出语音识别结果这一步骤,其具体还包括:
通过循环神经网络输出对应帧的第一语音结果;
通过注意力机制解码第一语音结果,得到最终语音结果。
通过CTC算法将最终语音结果与对应帧对齐后得到文字,最终得到语音识别结果。
本发明所采用的第二技术方案是:一种基于注意力机制的语音识别系统,包括以下模块:
音频接收与预处理模块,用于获取音频信息并对音频信息进行预处理,得到预处理后的音频;
音频特征提取模块,用于对预处理后的音频进行特征提取,得到特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市优普科技有限公司,未经广州市优普科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010829299.7/2.html,转载请声明来源钻瓜专利网。