[发明专利]基于BN-SGMM-HMM低资源语音识别方法在审
| 申请号: | 202110897247.8 | 申请日: | 2021-08-05 |
| 公开(公告)号: | CN113421555A | 公开(公告)日: | 2021-09-21 |
| 发明(设计)人: | 赵宏亮;雷杰 | 申请(专利权)人: | 辽宁大学 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/14;G10L15/16;G10L25/24 |
| 代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 王洋 |
| 地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 bn sgmm hmm 资源 语音 识别 方法 | ||
1.基于BN-SGMM-HMM低资源语音识别方法,其特征在于,其步骤为:
1)训练数据预处理及提取:对原始数据库进行设置和分集,然后进行特征提取,得到MFCC特征;
2)创建单音素声学模型:
3)创建三音素声学模型:得到FMLLR特征;
4)训练神经网络:将FMLLR特征作为瓶颈神经网络的输入特征,经过神经网络训练后移除瓶颈层之后的网络层,瓶颈层作为输出层最终提取出经过交叉熵训练的瓶颈特征;
5)BN-SGMM-HMM基线系统的训练:将神经网络提取出来的瓶颈特征作为SGMM-HMM声学模型的输入特征,最终构成BN-SGMM-HMM基线系统;
6)硬件实现:将Kaldi编译的过程放在虚拟机上进行编译,并将最终编译完成的文件存入树莓派中;更新当前终端所包含的控制变量;最后确认树莓派交叉编译环境配置是否完成;
7)将训练好的声学模型文件、语音模型词网络文件以及词典文件移植到树莓派当中输入语音并通过Kaldi自带的解码器进行解码,最后将语音的文本输出到终端上。
2.根据权利要求1所述的基于BN-SGMM-HMM低资源语音识别方法,其特征在于,所述的步骤1)中,具体方法为:
1.1)准备原始的语料库,并在训练脚本中设置好语料库的路径;
1.2)执行数据准备脚本,将数据分为训练集,测试集,以及开发集,并生成说话人编号与语音之间的映射关系,说话人性别,以及原始语音文件的相关信息;
1.3)将相关信息生成好之后,开始准备字典以及对应的音素模型,至此数据准备已完成;
1.4)对语音信号进行特征提取,提取的范围为是训练集,开发集以及测试集,执行的脚本为steps/make_mfcc.sh和compute_cmvn_stats.sh;
1.5)在make_mfcc,sh中,需要经过预加重,分帧,加窗,快速傅里叶变换,梅尔变换,log能量,以及为了提取动态特征的一阶二阶差分计算,将原始的语音转换为特征向量;
1.6)得到特征后,执行compute_cmvn_stats.sh文件,将得到的声学特征经过倒谱均值方差归一化,至此特征提取部分已完成。
3.根据权利要求1所述的基于BN-SGMM-HMM低资源语音识别方法,其特征在于,所述的步骤2)中,具体方法为:
2.1)将之前训练的MFCC特征用于初始化单音素的GMM模型;
2.2)采用E-M算法对模型训练进行迭代,并进行数据对齐;
2.3)将上次训练得到对齐模型再进行迭代,直到模型收敛。
4.根据权利要求1所述的基于BN-SGMM-HMM低资源语音识别方法,其特征在于,所述的步骤3)中,具体方法为:
3.1)以对齐的单音素模型的基础上进行训练,同时训练对语料库进行训练,生成语言字典文件,语音路径文件,语音与说话人映射文件以及语段的音素文件,并将三音素模型放到一起进行相似性聚类裁剪,发音相似的三音素模型聚类到一个模型,共享参数;之后,通过训练单音素模型的方法,对三音素模型进行训练;
3.2)进行特征变换,包括线性判别分析,最大似然线性变换以及说话人自训练;说话人自训练基于FMLLR,得到的FMLLR特征则用于下一步神经网络的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁大学,未经辽宁大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110897247.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种变桨轴承高强度钢裂纹检测系统
- 下一篇:一种提高商品鸽产蛋量的配对方法





