[发明专利]基于BN-SGMM-HMM低资源语音识别方法在审

专利信息
申请号: 202110897247.8 申请日: 2021-08-05
公开(公告)号: CN113421555A 公开(公告)日: 2021-09-21
发明(设计)人: 赵宏亮;雷杰 申请(专利权)人: 辽宁大学
主分类号: G10L15/06 分类号: G10L15/06;G10L15/02;G10L15/14;G10L15/16;G10L25/24
代理公司: 沈阳杰克知识产权代理有限公司 21207 代理人: 王洋
地址: 110000 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 bn sgmm hmm 资源 语音 识别 方法
【说明书】:

基于BN‑SGMM‑HMM低资源语音识别方法,在低资源条件下,将经过神经网络训练过的瓶颈特征与子空间高斯混合模型结合起来形成基线系统,组成BN‑SGMM‑HMM声学模型,并将该模型移植到树莓派上,完成语音识别任务,相较于传统的语音识别模型相比,该模型在识别率方面有显著提高且参数规模比传统的语音识别系统要小,并且移植到开源硬件上成本低且该语音识别系统无需联网即可使用。

技术领域

发明涉语音识别领域,特别涉及一种基于BN-SGMM-HMM低资源语音识别方法。

背景技术

现有的语音识别一般采用一下几种方法:

方法1:采用传统的MFCC特征作为输入,GMM-HMM作为声学模型,这种方法训练出来的语音模型,由于GMM-HMM是浅层模型,无法像神经网络那样进行多层以及反向传播运算,导致识别率往往低于经过神经网络运算的声学模型;且GMM-HMM并不适应在语料匮乏(即低资源)的应用场景。

方法2:传统的DNN-HMM模型,由于DNN神经网络的多层次复杂结构,导致计算量巨大,采用瓶颈网络进行训练,由于在提取瓶颈特征时需要移除后面的网络,不需要瓶颈层后面的非线性运算,降低了预算量;且提取出的瓶颈特征相较于传统MFCC特征,由于经过了交叉熵训练,不但拥有DNN特征语音长时相关性和紧凑表示等优点,且用瓶颈特征训练形成基线系统的识别率比DNN-HMM识别率更理想。

发明内容

本发明要解决的技术问题是提供一种基于BN-SGMM-HMM低资源语音识别方法,以该模型为基础对开源中文语料库进行训练,并最终在树莓派硬件平台实现且识别效果良好。

为了实现上述目的,本发明创造采用了如下技术方案:基于BN-SGMM-HMM低资源语音识别方法,其特征在于,其步骤为:

1)训练数据预处理及提取:对原始数据库进行设置和分集,然后进行特征提取,得到MFCC特征;

2)创建单音素声学模型:

3)创建三音素声学模型:得到FMLLR特征;

4)训练神经网络:将FMLLR特征作为瓶颈神经网络的输入特征,经过神经网络训练后移除瓶颈层之后的网络层,瓶颈层作为输出层最终提取出经过交叉熵训练的瓶颈特征;

5)BN-SGMM-HMM基线系统的训练:将神经网络提取出来的瓶颈特征作为SGMM-HMM声学模型的输入特征,最终构成BN-SGMM-HMM基线系统;

6)硬件实现:将Kaldi编译的过程放在虚拟机上进行编译,并将最终编译完成的文件存入树莓派中;更新当前终端所包含的控制变量;最后确认树莓派交叉编译环境配置是否完成;

7)将训练好的声学模型文件、语音模型词网络文件以及词典文件移植到树莓派当中输入语音并通过Kaldi自带的解码器进行解码,最后将语音的文本输出到终端上。

所述的步骤1)中,具体方法为:

1.1)准备原始的语料库,并在训练脚本中设置好语料库的路径;

1.2)执行数据准备脚本,将数据分为训练集,测试集,以及开发集,并生成说话人编号与语音之间的映射关系,说话人性别,以及原始语音文件的相关信息;

1.3)将相关信息生成好之后,开始准备字典以及对应的音素模型,至此数据准备已完成;

1.4)对语音信号进行特征提取,提取的范围为是训练集,开发集以及测试集,执行的脚本为steps/make_mfcc.sh和compute_cmvn_stats.sh;

1.5)在make_mfcc,sh中,需要经过预加重,分帧,加窗,快速傅里叶变换,梅尔变换,log能量,以及为了提取动态特征的一阶二阶差分计算,将原始的语音转换为特征向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110897247.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top