[发明专利]一种基于DTW的孤立词语音识别方法在审

专利信息
申请号: 201710264774.9 申请日: 2017-04-21
公开(公告)号: CN107039037A 公开(公告)日: 2017-08-11
发明(设计)人: 邓立新;周炳良;洪民江 申请(专利权)人: 南京邮电大学
主分类号: G10L15/12 分类号: G10L15/12;G10L15/06;G10L15/02
代理公司: 江苏爱信律师事务所32241 代理人: 赵赞赞
地址: 210003 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 dtw 孤立 词语 识别 方法
【说明书】:

技术领域

发明属于语音识别技术领域,特别是涉及一种基于DTW的孤立词语音识别 方法。

背景技术

语音识别即让机器接收、识别和理解语音信号,能够“听懂”会话中的语 音语义并执行人类意图。常用的识别方法包括动态时间规整(DTW)、隐马尔科夫 模型(HMM)和人工神经网络(ANN)等。在孤立词语音识别中,动态时间规整是最简 单有效的方法。DTW算法基于动态规划(DP)的思想,能够较好地解决孤立词识别 时说话速度不均匀的难题。相较于传统的语音线性伸缩匹配的方法,DTW方法有 效的提高了孤立词语音识别系统的识别率,因此在特定场合下获得较好的应用。

近年来,为了提高孤立词语音识别系统的效率,使其广泛地适用于市场和各 类服务领域,科研人员提出了许多基于DTW的改进型语音识别算法,经典的主要 有3种:基于音节个数的高效DTW算法、改变局部路径限制的DTW算法以及增设参 考模板阈值的DTW算法。

(1)基于音节个数的高效DTW算法,该算法利用双门限检测法预先检测出语音 信号中的音节个数,并将其只与含有相同音节个数的训练模板进行最优匹配,减 少了系统的计算开销,提高了系统的识别效率。但该算法对双门限阈值精度要求 很高,一旦阈值设置不准确,系统识别效率将大幅降低。

(2)改变局部路径限制的DTW算法,该算法改善了局部路径节点前进的范围, 有利于解决测试语音特征矢量与模板矢量均匀变化剧烈的匹配问题,加快了两矢 量匹配的过程。但该算法增加了系统局部路径搜索的复杂度和内存消耗,且不利 于解决两矢量均匀变化平缓的匹配过程。

(3)增设参考模板阈值的DTW算法,该算法在进行测试语音特征矢量与模板矢 量匹配时,一旦计算出部分失真度大于预先增设的模板阈值,将终止对该模板继 续运算,转入对其他模板继续匹配运算。由于是中途停止对模板的匹配运算,因 此可以节省部分计算开销,提高了系统的识别效率。但该算法必须要为每一个模 板预先找到一个合理的阈值,否则将无法减少系统的运算量,甚至大幅度降低系 统的识别率。

发明内容

本发明的目的在于解决上述现有技术的不足,提出一种基于DTW的孤立词语 音识别方法,该方法通过提取测试语音信号的特征参数并截取测试语音特征矢量 起始部分长度与库模板矢量进行最优路径匹配,并且匹配后只保留失真度较小的 部分库模板矢量继续进行下一次最优路径匹配,如此反复截取测试语音特征矢量 的起始不同部分进行匹配与模板矢量保留,直至保留模板矢量唯一。

本发明的目的可以通过以下技术方法实现:

该方法基于传统的语音训练模式,改进了语音识别阶段,先提取出测试语音 信号的特征参数并截取测试语音特征矢量的起始部分长度,并从起点开始搜索它 们与各个模板矢量的最优匹配路径,采用松弛端点检测的方法找到最优匹配路径 的止点并求出各自的最小累积距离D,即找出各模板矢量与截取语音特征矢量匹 配度最大的起始部分长度并求出相应的D,然后选择D相对较小的部分模板保留下 来,排除掉D相对较大的模板。如此循环采用这种方法对剩余的模板进行部分长 度匹配和排除,直至剩余模板数量唯一。

有益效果

本发明仅截取部分测试语音特征矢量与所有模板进行最优路径匹配,便排除 了大量的不可能模板。相较于传统的利用全部语音特征矢量与模板进行最优路径 匹配,前者在保证了识别精度基本不变的情况下,大幅度减少了识别系统的运算 量,有效提高了系统的识别效率。同时对比于上述第三种改进算法,本发明避免 了预先设置模板阈值的问题,减少了系统的额外工作量。

附图说明

图1是本发明的语音识别流程图。

图2是本发明语音特征矢量起始部分截取方式示意图。

图3是本发明最优匹配路径的全局限制示意图。

图4是本发明最优匹配路径的局部限制示意图。

具体实施方式

下面结合附图对本发明创造作进一步的详细说明。

如图1所示,本发明是一种基于DTW孤立词语音识别方法的研究。其基于传统 的语音训练模式,针对语音识别阶段加以改进,包括3个部分:语音信号预处理、 特征参数提取和语音识别,下面将具体描述改进的识别阶段内容。

本发明识别阶段具体实施步骤包括如下:

1.语音信号预处理

语音信号预处理目的是分析处理输入的语音信号,并将其转化为语音预处理 信号,其主要包括预加重、分帧加窗和端点检测3个部分内容。

(1)预加重

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710264774.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top