[发明专利]语音识别方法、装置、设备及存储介质在审
申请号: | 202210035347.4 | 申请日: | 2022-01-13 |
公开(公告)号: | CN114333782A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 罗剑;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/18;G10L25/18;G10L25/27 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 胡安 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能领域,公开了一种语音识别方法、装置、设备及存储介质,用于提高语音识别的准确度。语音识别方法包括:获取初始音频数据,对初始音频数据进行预处理,对预处理音频数据进行变换和滤波处理,得到滤波器组声学特征;调用一维卷积层和多分辨率卷积块,对滤波器组声学特征依次进行卷积处理和归一化处理,得到目标卷积结果;调用注意力机制层和特征融合层,对目标卷积结果依次进行池化处理和特征融合处理,得到特征融合结果;调用预置的语言模型对特征融合结果进行预测,得到目标语音识别结果。此外,本发明还涉及区块链技术,目标语音识别结果可存储于区块链中。
技术领域
本发明涉及语音信号处理领域,尤其涉及一种语音识别方法、装置、设备及存储介质。
背景技术
最近几年,卷积神经网络的发展引起了人们的广泛关注,端到端的神经网络在语音识别领域取得了显著地成效。基于卷积神经网络的有效性,出现了新的编码模型QuartzNet,QuartzNet利用1D时间-通道分离卷积来代替标准的一维卷积,该模型在保持低的错误率的同时有效地减少了网络参数的数量。然而,单一分辨率卷积只能捕获单一尺度的信息,例如只关注了音素的谱信息等局部信息而忽略了语音背景噪声等全局信息,因此该模型提取的语音特征表达缺乏有效性,导致语音识别的准确度低下。
发明内容
本发明提供了一种语音识别方法、装置、设备及存储介质,用于调用预置的多分辨率卷积语音识别网络中的一维卷积层和多分辨率卷积块,对滤波器组声学特征依次进行卷积处理和归一化处理,得到目标卷积结果,通过注意力机制层和特征融合层,对目标卷积结果依次进行池化处理和特征融合处理,最后通过预置的语言模型对特征融合结果进行预测,得到目标语音识别结果,提高了语音识别的准确度。
本发明第一方面提供了一种语音识别方法,包括:获取初始音频数据,对所述初始音频数据进行预处理,得到预处理音频数据,对所述预处理音频数据进行变换和滤波处理,得到滤波器组声学特征;调用预置的多分辨率卷积语音识别网络中的一维卷积层和多分辨率卷积块,对所述滤波器组声学特征依次进行卷积处理和归一化处理,得到目标卷积结果;调用所述多分辨率卷积语音识别网络中的注意力机制层和特征融合层,对所述目标卷积结果依次进行池化处理和特征融合处理,得到特征融合结果;调用预置的语言模型对所述特征融合结果进行预测,得到目标语音识别结果。
可选的,在本发明第一方面的第一种实现方式中,所述获取初始音频数据,对所述初始音频数据进行预处理,得到预处理音频数据,对所述预处理音频数据进行变换和滤波处理,得到滤波器组声学特征包括:获取初始音频数据,对所述初始音频数据进行预加重处理,得到预加重音频数据,基于预设的帧长量和帧移量对所述预加重音频数据进行分帧处理,得到分帧音频数据,采用预置的窗型对所述分帧音频数据进行加窗处理,得到预处理音频数据;对所述预处理音频数据依次进行短时傅里叶变换、梅尔滤波和去均值处理,得到滤波器组声学特征。
可选的,在本发明第一方面的第二种实现方式中,所述调用预置的多分辨率卷积语音识别网络中的一维卷积层和多分辨率卷积块,对所述滤波器组声学特征依次进行卷积处理和归一化处理,得到目标卷积结果包括:调用预置的多分辨率卷积语音识别网络的一维卷积层,对所述滤波器组声学特征进行卷积处理,得到卷积特征图,所述卷积特征图包括语音帧数和特征通道数;调用预置的多分辨率卷积语音识别网络的多分辨率卷积块,对所述卷积特征图进行逐深度卷积,得到多个卷积流结果,所述多分辨率卷积块包括多层卷积流,每一层卷积流输出一个卷积流结果;对所述多个卷积流结果进行归一化处理和激活处理,得到多个激活卷积结果,将所述多个激活卷积结果相加,得到目标卷积结果。
可选的,在本发明第一方面的第三种实现方式中,所述调用所述多分辨率卷积语音识别网络中的注意力机制层和特征融合层,对所述目标卷积结果依次进行池化处理和特征融合处理,得到特征融合结果包括:调用预置的多分辨率卷积语音识别网络中的注意力机制层,对所述目标卷积结果进行池化处理,得到注意力输出结果;调用预置的多分辨率卷积语音识别网络中的特征融合层,对所述注意力输出结果依次进行拼接和基于维度的变换,得到特征融合结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210035347.4/2.html,转载请声明来源钻瓜专利网。