[发明专利]一种基于预训练和双向LSTM的语音识别方法有效
申请号: | 201810669327.6 | 申请日: | 2018-06-26 |
公开(公告)号: | CN108682418B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 金福生;王茹楠;张俊逸;韩翔宇 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G10L15/20 | 分类号: | G10L15/20;G10L15/16;G10L15/06;G10L25/24;G10L25/18;G10L25/45;G10L25/30 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 双向 lstm 语音 识别 方法 | ||
本发明公开了一种模型预训练和双向LSTM的语音识别方法,属于深度学习和语音识别领域。1)输入待处理语音信号;2)预处理;3)提取梅尔倒谱系数及动态差分得到语音特征;4)构建双向LSTM结构;5)使用maxout函数优化双向LSTM,得到maxout‑biLSTM;6)模型预训练;7)使用预训练后的maxout‑biLSTM对含噪声的语音信号进行训练,得到结果。本发明使用maxout激活函数改进了双向LSTM的原激活函数,并且使用了模型预训练的方法,提高了声学模型在噪声环境下的鲁棒性,可应用于高噪声环境下语音识别模型的构建与训练。
技术领域
本发明涉及一种模型预训练和双向LSTM的语音识别方法,特别涉及一种基于预训练、maxout激活函数以及双向LSTM模型,在高噪声环境下能够显著提高神经网络抗噪性能力的语音识别方法,属于深度学习和语音识别领域。
背景技术
随着计算机软硬件技术的不断发展和广泛应用,语音识别技术得到了迅速发展,语音识别研究也越来越受到人们的关注。近年来深度学习在语音识别领域的成功应用,也使得语音识别领域取得了很好的成果。但在实际生活的高噪声情况下语音识别系统的性能往往急剧下降,其问题的本质在于语音识别系统在高噪声环境下鲁棒性不足。
针对上述问题,传统语音识别技术在训练声学模型前多使用语音增强技术来对语音数据进行降噪除噪。语音增强技术是指通过信号处理的方法在处理语音信号前将采集过程中的混叠、高次谐波失真、高频等等因素去除,以获得”纯净”的语音信号。语音降噪算法可以分为两大类:无监督和有监督算法。
其中无监督条件下的语音降噪算法主要有以下几种方法:谱减法,基于统计模型的方法,基于子空间的方法。
谱减法的核心思路是估计噪声的功率谱并将其从嘈杂语音中减去;基于统计模型的方法则是将降噪问题归入到一个统计的估计框架中。一般常见的方法有:维纳滤波、最小均方误差方法和最大后验法。基于统计模型的方法一般需要假设语音信号和噪声信号是独立的,且服从特定分布;基于子空间的方法则是假设干净的语音信号子空间和噪声子空间是正交的,因此可以通过线性代数的方法将两个子空间进行分离。
无监督条件下的语音降噪算法的优点在于,对平稳噪声具有显著的抑制效果。但是对于非平稳噪声,其往往不能得到很好的降噪效果。而有监督类算法的优点则是在非平稳噪声情况下也可以得到相对较好的降噪效果。
有监督条件下语音降噪算法则主要是深度神经网络类算法。深度神经网络类算法是用基于深度学习的方法,从训练数据中学习语音和噪音的特征。其主要思路是根据听觉感知特性,把音频信号分成不同的子带,根据每个时频单元上的信噪比,在噪音占主导的情况下把对应的时频单元的能量设为0,或者在目标语音占主导的情况下保持原样。从而将分类任务转换成了一个二分类问题,以此实现语音降噪的目标。
但是,上述语音增强技术仍存在一些不足。例如,谱减法的缺点是由于估计噪音的时候取平均值,那么有的地方噪音强度大于平均值的时候,相减后会有残留的噪音存在;而强度小于平均值时,相减后会产生音乐噪声。同时由于没有利用明确的语音和噪声模型,其性能在很大程度上依赖于对干扰源的频谱跟踪的好坏。
为了尽可能提高语音识别系统在高噪声环境下的鲁棒性,首先提出了一种无需语音增强的声学模型训练方法,即预训练方法,通过预训练得到模型初始化权重参数。
随着近年来各种深度神经网络的快速发展,卷积神经网络、生成对抗网络等原本应用于其他领域的神经网络模型也被尝试着用于语音识别领域,并取得了一定的效果。其中长短期记忆网络模型由于能对潜在的任意长期序列进行建模,因此,广泛应用于因此语言、语音和翻译等方面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810669327.6/2.html,转载请声明来源钻瓜专利网。