[发明专利]基于深层时延神经网络的藏语卫藏方言口语识别方法有效
申请号: | 202110183564.3 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112951206B | 公开(公告)日: | 2023-03-17 |
发明(设计)人: | 魏建国;何铭;徐君海 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/14;G10L15/16;G10L15/26;G10L25/24;G10L25/69 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深层 神经网络 藏语 方言 口语 识别 方法 | ||
1.一种基于深层时延神经网络的藏语卫藏方言口语识别方法,其特征是,采用包括卫藏方言的三种藏语方言混合的音频数据集,通过速度扰动、添加噪音和混响的方法对原始音频数据集进行扩充,并利用扩充后的数据集基于开源的语音识别工具箱kaldi的链式chain模型训练一个深层的时延神经网络,作为藏语声学模型,利用音频数据中卫藏方言的部分对声学模型进行第二次训练,以获得针对卫藏方言的深层的时延神经网络声学模型;基于已有的有限的文本资源,分别使用口语类的藏文文本和新闻资讯类的藏语文本训练两个不同内容领域的N元语法N-gram语言模型,并按照1:1的比例进行插值,并且使用剪枝技术控制插值得到的模型的大小,得到藏文N-gram语言模型;将所述深层的时延神经网络声学模型、N-gram语言模型和发音词典结合构成解码器,之后再采用对口语类内容领域和新闻资讯类内容领域对应的两个语言模型按照8:2的比例重新插值,获得一个新的偏向于口语领域的语言模型,用来对解码出的中间结果进行重打分,使得整体语言模型更加偏重于口语类的文法习惯,将训练好的时延神经网络声学模型和N-gram语言模型、重打分语言模型组合成系统,得到最后针对藏语卫藏方言的口语领域语音识别模型;具体步骤如下:
步骤一,准备藏语音频数据集,使用增广技术对其进行扩充;
步骤二,提取声学特征:使用的是梅尔频率倒谱系数MFCC特征加上基音周期信息pitch特征;具体步骤是,在训练高斯混合模型GMM声学模型时,提取13维低精度MFCC特征加上3维的pitch特征;训练时延神经网络TDNN声学模型的时候,使用40维高精度MFCC特征加上3维的pitch特征,此外,还使用到i-vector特征Identity-Vector,维度为100维;
步骤三,声学模型的训练,操作过程包括以下两个方面:
第一,训练隐马尔科夫-高斯混合模型HMM-GMM声学模型,使用提取的13维MFCC特征加pitch特征,共16维,使用kaldi训练单音素模型monophone和三音素模型triphone的GMM声学模型;
第二,使用训练得到的三音素GMM模型对训练数据进行对齐,为后面的TDNN模型训练提供音素级别的对齐信息;
步骤四,使用一个深层的时延神经网络结构,构建藏语通用声学模型;
步骤五,利用藏语卫藏方言部分的声学数据集,在训练好的声学模型基础上,进行第二次训练,得到最终的藏语卫藏方言的声学模型;
步骤六,训练藏文的语言模型,具体使用收集到的藏文文本资料,训练N-gram藏文语言模型,其中,N取值为5,即5-gram,其操作步骤包含以下两个方面:
先将已有的藏文文本按照内容领域进行划分,分为口语类和新闻资讯类,然后利用这两部分的藏文文本,分别训练两个对应的5-gram藏语语言模型,接着对这两个语言模型按照1:1的比例进行插值,并通过设置困惑度ppl的阈值进行适当剪枝,以控制模型大小,最终得到1:1藏文语言模型;
第二,为了使得训练出来的藏语语言模型能够更好地应用于口语类的场景,在前面利用口语类文本和新闻资讯类文本训练好的两个5-gram藏语语言模型基础上,再次进行插值,但是将比例调整为口语类:新闻资讯类等于8:2,生成新的偏向于口语应用场景的8:2藏文语言模型;
步骤七,将卫藏方言发音词典和训练好的藏语卫藏方言声学模型、口语类和新闻资讯类按1:1比例插值的藏语5-gram语言模型结合起来,生成语音识别解码器,对待识别的音频文件中提取出来的一帧帧声学特征序列进行解码;
步骤八,利用口语类和新闻资讯类的两个语言模型按照8:2比例插值获得的新的藏文5-gram语言模型在中间结果上进行重打分,得到最终识别出来的藏文文本序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110183564.3/1.html,转载请声明来源钻瓜专利网。