[发明专利]一种基于DTW的孤立词语音识别方法在审

申请号：	201710264774.9	申请日：	2017-04-21
公开（公告）号：	CN107039037A	公开（公告）日：	2017-08-11
发明（设计）人：	邓立新;周炳良;洪民江	申请（专利权）人：	南京邮电大学
主分类号：	G10L15/12	分类号：	G10L15/12;G10L15/06;G10L15/02
代理公司：	江苏爱信律师事务所32241	代理人：	赵赞赞
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 dtw 孤立词语识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于语音识别技术领域，特别是涉及一种基于DTW的孤立词语音识别方法。

背景技术

语音识别即让机器接收、识别和理解语音信号，能够“听懂”会话中的语音语义并执行人类意图。常用的识别方法包括动态时间规整(DTW)、隐马尔科夫模型(HMM)和人工神经网络(ANN)等。在孤立词语音识别中，动态时间规整是最简单有效的方法。DTW算法基于动态规划(DP)的思想，能够较好地解决孤立词识别时说话速度不均匀的难题。相较于传统的语音线性伸缩匹配的方法，DTW方法有效的提高了孤立词语音识别系统的识别率，因此在特定场合下获得较好的应用。

近年来，为了提高孤立词语音识别系统的效率，使其广泛地适用于市场和各类服务领域，科研人员提出了许多基于DTW的改进型语音识别算法，经典的主要有3种：基于音节个数的高效DTW算法、改变局部路径限制的DTW算法以及增设参考模板阈值的DTW算法。

(1)基于音节个数的高效DTW算法，该算法利用双门限检测法预先检测出语音信号中的音节个数，并将其只与含有相同音节个数的训练模板进行最优匹配，减少了系统的计算开销，提高了系统的识别效率。但该算法对双门限阈值精度要求很高，一旦阈值设置不准确，系统识别效率将大幅降低。

(2)改变局部路径限制的DTW算法，该算法改善了局部路径节点前进的范围，有利于解决测试语音特征矢量与模板矢量均匀变化剧烈的匹配问题，加快了两矢量匹配的过程。但该算法增加了系统局部路径搜索的复杂度和内存消耗，且不利于解决两矢量均匀变化平缓的匹配过程。

(3)增设参考模板阈值的DTW算法，该算法在进行测试语音特征矢量与模板矢量匹配时，一旦计算出部分失真度大于预先增设的模板阈值，将终止对该模板继续运算，转入对其他模板继续匹配运算。由于是中途停止对模板的匹配运算，因此可以节省部分计算开销，提高了系统的识别效率。但该算法必须要为每一个模板预先找到一个合理的阈值，否则将无法减少系统的运算量，甚至大幅度降低系统的识别率。

发明内容

本发明的目的在于解决上述现有技术的不足，提出一种基于DTW的孤立词语音识别方法，该方法通过提取测试语音信号的特征参数并截取测试语音特征矢量起始部分长度与库模板矢量进行最优路径匹配，并且匹配后只保留失真度较小的部分库模板矢量继续进行下一次最优路径匹配，如此反复截取测试语音特征矢量的起始不同部分进行匹配与模板矢量保留，直至保留模板矢量唯一。

本发明的目的可以通过以下技术方法实现：

该方法基于传统的语音训练模式，改进了语音识别阶段，先提取出测试语音信号的特征参数并截取测试语音特征矢量的起始部分长度，并从起点开始搜索它们与各个模板矢量的最优匹配路径，采用松弛端点检测的方法找到最优匹配路径的止点并求出各自的最小累积距离D，即找出各模板矢量与截取语音特征矢量匹配度最大的起始部分长度并求出相应的D，然后选择D相对较小的部分模板保留下来，排除掉D相对较大的模板。如此循环采用这种方法对剩余的模板进行部分长度匹配和排除，直至剩余模板数量唯一。

有益效果

本发明仅截取部分测试语音特征矢量与所有模板进行最优路径匹配，便排除了大量的不可能模板。相较于传统的利用全部语音特征矢量与模板进行最优路径匹配，前者在保证了识别精度基本不变的情况下，大幅度减少了识别系统的运算量，有效提高了系统的识别效率。同时对比于上述第三种改进算法，本发明避免了预先设置模板阈值的问题，减少了系统的额外工作量。

附图说明

图1是本发明的语音识别流程图。

图2是本发明语音特征矢量起始部分截取方式示意图。

图3是本发明最优匹配路径的全局限制示意图。

图4是本发明最优匹配路径的局部限制示意图。

具体实施方式

下面结合附图对本发明创造作进一步的详细说明。

如图1所示，本发明是一种基于DTW孤立词语音识别方法的研究。其基于传统的语音训练模式，针对语音识别阶段加以改进，包括3个部分：语音信号预处理、特征参数提取和语音识别，下面将具体描述改进的识别阶段内容。

本发明识别阶段具体实施步骤包括如下：

1.语音信号预处理

语音信号预处理目的是分析处理输入的语音信号，并将其转化为语音预处理信号,其主要包括预加重、分帧加窗和端点检测3个部分内容。

(1)预加重