[发明专利]一种基于Kaldi的中文语音识别声学模型构建方法在审

申请号：	202010381931.6	申请日：	2020-05-08
公开（公告）号：	CN111696525A	公开（公告）日：	2020-09-22
发明（设计）人：	于健;李亚蓉;王建荣;喻梅;徐天一;高洁;马佳轩	申请（专利权）人：	天津大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/07;G10L15/14
代理公司：	天津市三利专利商标代理有限公司 12107	代理人：	张义
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 kaldi 中文语音识别声学模型构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于Kaldi的中文语音识别声学模型构建方法，包含以下步骤：步骤一：获得语料集的音频集和对应的文字集；步骤二：将获得的文字集格式化；步骤三：从音频集中提取声学特征；步骤四：单音素训练；步骤五：基于高斯混合模型‑隐马尔科夫模型和深度神经网络‑隐马尔科夫模型的框架，进行如下动作：5.1将音频集根据声学模型对齐；5.2训练三音素模型；5.3根据声学模型重新对齐音频重新训练三音素模型。利用本申请识别准确，识别效率高。

技术领域

本发明属于语音识别技术领域，特别涉及一种基于Kaldi的中文语音识别声学模型构建方法。

背景技术

语音识别(Automatic Speech Recognition，ASR)所要解决的问题是让计算机能够听懂人类的语音，将语音转化成文本。语音识别是实现智能的人机交互的前沿阵地，是完全机器翻译，自然语言理解等的前提条件。近年来随着大数据时代的到来，以及深度神经网络在语音识别中的应用，语音识别系统的性能获得了显著的提升。语音识别也逐步走向实用化和产品化，越来越多的语音识别智能软件和应用开始走入大家的日常生活，例如语音输入法，智能语音助手，车载语音交互系统等等。

语音识别—通过直接人机语音对话方式即对人类语音的词汇语法的分解，并将内容转换为计算机可读的输入，例如按键、二进制编码或字符序列。思维是人脑的机能，是对外部现实的反映；语言则是现实思维、巩固和传达思维成果即思想的工具。

语音识别的目的是对给定的波形序列，可以得到相应的单词或者字符序列。因此语音识别可以被看作是一个信道解码或者模式分类问题。统计建模是目前主流的语音识别方法。基于统计建模框架，对于给定语音波形序列O，我们可以采用贝叶斯决策的最大后验概率(Maximum A Posteriori，MAP)估计得到最优的输出序列W*。其中条件概率P(O|W)表示模型生成观察序列的概率，对应语音识别系统的声学模型(Acoustic Model，AM)。

声学模型的任务是计算条件概率P(O|W)，即给模型产生语音波形的概率。声学模型是语音识别系统的重要组成部分，它占据着语音识别大部分的计算开销，决定着语音识别系统的性能。

发明内容

本发明的目的是提供一种基于Kaldi的中文语音识别声学模型构建方法，基于网络爬虫收集的文本材料，设计用于语音识别的文本语料库，并通过手机App采集语音语料。基于Kaldi语音识别工具包，训练声学模型，并与语言模型结合，检验声学模型的性能。

为实现本发明的目的，本发明提供的一种基于Kaldi的中文语音识别声学模型构建方法，包含以下步骤：

步骤一：获得语料集的音频集和对应的文字集；

步骤二：将获得的文字集格式化；

步骤三：从音频集中提取声学特征；

步骤四：单音素训练；

步骤五：基于高斯混合模型-隐马尔科夫模型和深度神经网络-隐马尔科夫模型的框架，进行如下动作：

5.1将音频集根据声学模型对齐；

5.2训练三音素模型；

5.3根据声学模型重新对齐音频重新训练三音素模型。