[发明专利]一种基于矢量泰勒级数的多环境模型孤立词识别方法在审
申请号: | 201410676529.5 | 申请日: | 2014-11-21 |
公开(公告)号: | CN104485103A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 周琳;束佳明;吕勇;吴镇扬 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L15/14 | 分类号: | G10L15/14 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 杨晓玲 |
地址: | 214000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 矢量 泰勒 级数 环境 模型 孤立 识别 方法 | ||
1.一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,该方法包括以下步骤:
1)模型训练阶段:设置基本环境信噪比,对白噪声进行加权,将加权结果加载到纯净训练语音中,分别得到对应信噪比条件下的含噪训练语音;利用含噪训练语音分别训练生成含噪GMM模型和含噪HMM模型;其中含噪GMM模型表示每一信噪比环境下所有孤立词的特征参数分布,含噪HMM模型表示每一信噪比环境下每个孤立词的特征参数分布;
2)孤立词识别阶段:根据训练阶段获得的含噪GMM模型,基于最大似然准则选择与当前测试环境最匹配的信噪比环境,然后基于矢量泰勒级数和纯净环境下的纯净GMM模型,估计测试语音中噪声的均值和方差;接着基于最小均方误差估计准则和最匹配信噪比环境下的含噪GMM模型,将测试环境下的含噪语音特征参数映射到最匹配信噪比环境下的含噪特征参数;最后识别时,选择最匹配信噪比环境下的含噪HMM模型,将映射后的含噪特征参数与对应的含噪HMM模型进行匹配,得到最终的识别结果。
2.如权利要求1所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,设置基本环境包括信噪比分别为0dB、5dB、10dB、15dB、20dB和纯净环境,步骤1)中模型训练阶段的具体包括以下步骤:
1.1)根据设置的信噪比,对白噪声信号进行加权,加载到纯净训练语音数据中,得到不同环境下的含噪训练语音和纯净训练语音,在每一信噪比下,对训练语音进行预处理,所述预处理过程包括预加重、分帧加窗和端点检测;
1.2)对步骤1.1)中得到的每一帧语音信号提取MFCC特征参数;得到不同信噪比环境下所有孤立词的MFCC特征参数;
1.3)在每一信噪比下,利用所有孤立词的MFCC特征参数建立该环境下的含噪GMM模型,得到设置的基本信噪比环境中所有孤立词特征参数的含噪GMM模型;所述含噪GMM模型包括纯净环境下的纯净GMM模型;
1.4)在每一信噪比环境下,利用步骤1.2)中每个孤立词的MFCC特征参数,分别建立各个孤立词的含噪HMM模型;所述含噪HMM模型包括纯净环境下的纯净HMM模型。
3.如权利要求1所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,步骤2)中孤立词识别阶段具体包括以下步骤:
2.1)测试语音经过预处理过程,该预处理过程包括预加重、分帧加窗和端点检测,提取出MFCC参数;
2.2)利用步骤2.1)得到的MFCC参数和训练阶段建立的不同信噪比环境下的含噪GMM模型,基于ML准则估计与测试语音最匹配的最优GMM模型,该最优GMM模型所对应的信噪比环境就是和当前测试语音最为匹配的信噪比环境;
2.3)基于矢量泰勒级数方法和纯净环境下的纯净GMM模型,根据步骤2.1)得到的MFCC参数,估计测试语音中噪声的均值和方差;
2.4)利用步骤2.3)估计出的噪声参数和步骤2.2)得到的最优GMM模型,基于最小均方误差准则,将当前测试语音的MFCC特征参数映射为最匹配信噪比环境下的MFCC特征参数;
2.5)将步骤2.2)得到的最匹配信噪比环境下各个孤立词的含噪HMM模型作为当前识别模型,对经过步骤2.4)映射后的最匹配信噪比环境下的MFCC参数进行概率计算,得到最终的孤立词识别结果。
4.如权利要求2或3所述的一种基于矢量泰勒级数的多环境模型孤立词识别方法,其特征在于,所述MFCC特征参数为26维,该参数包括13维MFCC参数和13维一阶差分MFCC参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410676529.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电压产生电路和存储器
- 下一篇:一种基于模板自动生成音乐旋律的方法