[发明专利]一种基于DTW的孤立词语音识别方法在审
申请号: | 201710264774.9 | 申请日: | 2017-04-21 |
公开(公告)号: | CN107039037A | 公开(公告)日: | 2017-08-11 |
发明(设计)人: | 邓立新;周炳良;洪民江 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G10L15/12 | 分类号: | G10L15/12;G10L15/06;G10L15/02 |
代理公司: | 江苏爱信律师事务所32241 | 代理人: | 赵赞赞 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dtw 孤立 词语 识别 方法 | ||
技术领域
本发明属于语音识别技术领域,特别是涉及一种基于DTW的孤立词语音识别 方法。
背景技术
语音识别即让机器接收、识别和理解语音信号,能够“听懂”会话中的语 音语义并执行人类意图。常用的识别方法包括动态时间规整(DTW)、隐马尔科夫 模型(HMM)和人工神经网络(ANN)等。在孤立词语音识别中,动态时间规整是最简 单有效的方法。DTW算法基于动态规划(DP)的思想,能够较好地解决孤立词识别 时说话速度不均匀的难题。相较于传统的语音线性伸缩匹配的方法,DTW方法有 效的提高了孤立词语音识别系统的识别率,因此在特定场合下获得较好的应用。
近年来,为了提高孤立词语音识别系统的效率,使其广泛地适用于市场和各 类服务领域,科研人员提出了许多基于DTW的改进型语音识别算法,经典的主要 有3种:基于音节个数的高效DTW算法、改变局部路径限制的DTW算法以及增设参 考模板阈值的DTW算法。
(1)基于音节个数的高效DTW算法,该算法利用双门限检测法预先检测出语音 信号中的音节个数,并将其只与含有相同音节个数的训练模板进行最优匹配,减 少了系统的计算开销,提高了系统的识别效率。但该算法对双门限阈值精度要求 很高,一旦阈值设置不准确,系统识别效率将大幅降低。
(2)改变局部路径限制的DTW算法,该算法改善了局部路径节点前进的范围, 有利于解决测试语音特征矢量与模板矢量均匀变化剧烈的匹配问题,加快了两矢 量匹配的过程。但该算法增加了系统局部路径搜索的复杂度和内存消耗,且不利 于解决两矢量均匀变化平缓的匹配过程。
(3)增设参考模板阈值的DTW算法,该算法在进行测试语音特征矢量与模板矢 量匹配时,一旦计算出部分失真度大于预先增设的模板阈值,将终止对该模板继 续运算,转入对其他模板继续匹配运算。由于是中途停止对模板的匹配运算,因 此可以节省部分计算开销,提高了系统的识别效率。但该算法必须要为每一个模 板预先找到一个合理的阈值,否则将无法减少系统的运算量,甚至大幅度降低系 统的识别率。
发明内容
本发明的目的在于解决上述现有技术的不足,提出一种基于DTW的孤立词语 音识别方法,该方法通过提取测试语音信号的特征参数并截取测试语音特征矢量 起始部分长度与库模板矢量进行最优路径匹配,并且匹配后只保留失真度较小的 部分库模板矢量继续进行下一次最优路径匹配,如此反复截取测试语音特征矢量 的起始不同部分进行匹配与模板矢量保留,直至保留模板矢量唯一。
本发明的目的可以通过以下技术方法实现:
该方法基于传统的语音训练模式,改进了语音识别阶段,先提取出测试语音 信号的特征参数并截取测试语音特征矢量的起始部分长度,并从起点开始搜索它 们与各个模板矢量的最优匹配路径,采用松弛端点检测的方法找到最优匹配路径 的止点并求出各自的最小累积距离D,即找出各模板矢量与截取语音特征矢量匹 配度最大的起始部分长度并求出相应的D,然后选择D相对较小的部分模板保留下 来,排除掉D相对较大的模板。如此循环采用这种方法对剩余的模板进行部分长 度匹配和排除,直至剩余模板数量唯一。
有益效果
本发明仅截取部分测试语音特征矢量与所有模板进行最优路径匹配,便排除 了大量的不可能模板。相较于传统的利用全部语音特征矢量与模板进行最优路径 匹配,前者在保证了识别精度基本不变的情况下,大幅度减少了识别系统的运算 量,有效提高了系统的识别效率。同时对比于上述第三种改进算法,本发明避免 了预先设置模板阈值的问题,减少了系统的额外工作量。
附图说明
图1是本发明的语音识别流程图。
图2是本发明语音特征矢量起始部分截取方式示意图。
图3是本发明最优匹配路径的全局限制示意图。
图4是本发明最优匹配路径的局部限制示意图。
具体实施方式
下面结合附图对本发明创造作进一步的详细说明。
如图1所示,本发明是一种基于DTW孤立词语音识别方法的研究。其基于传统 的语音训练模式,针对语音识别阶段加以改进,包括3个部分:语音信号预处理、 特征参数提取和语音识别,下面将具体描述改进的识别阶段内容。
本发明识别阶段具体实施步骤包括如下:
1.语音信号预处理
语音信号预处理目的是分析处理输入的语音信号,并将其转化为语音预处理 信号,其主要包括预加重、分帧加窗和端点检测3个部分内容。
(1)预加重
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710264774.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:山楂中安赛蜜的残留量的测定方法
- 下一篇:一种水质监测系统