[发明专利]一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法有效
申请号: | 201910087494.4 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109767756B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 左毅;马赫;李铁山;贺培超;刘君霞;艾佳琪;肖杨;于仁海 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/24;G10L25/27 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 陈丽;王思宇 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 分割 离散 余弦 变换 谱系 特征 提取 算法 | ||
本发明公开了一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法,具有如下步骤:S1、对音声信号进行预加重、分帧和加窗预处理:S2、对于预处理后的音声信号进行从时域到频域的变换形式处理:S3、利用聚类分析算法,计算步骤S2得到的逆离散余弦变换倒谱系数之间的相似度,并把相似度最大的相邻两类依次合并;迭代以上过程,直至聚类至24类,得到的动态分割逆离散余弦变换倒谱系数即为音声特征。本发明完善了现有技术没有充分利用音声动态特征进行频域变换的缺点,使本发明具有更广泛的适应性,且在说话人识别上可以获得更高的识别精度。
技术领域
本发明属于音声特征提取技术领域,将无监督聚类分析算法运用到音声特征提取方向,特别涉及一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法。
背景技术
说话人识别技术包括特征提取和识别建模两部分。特征提取是说话人识别技术中的关键步骤,将直接影响到语音识别系统的整体性能。一般情况,语音信号经过分帧和加窗预处理过后,会产生高纬的数据量,在提取说话人特征时,就需要通过去除原来语音中的冗余信息来降低数据维度。现有方法会使用到三角滤波,将语音信号转换为满足特征参数要求的语音特征向量、并能够符合近似人耳听觉感知特性以及在一定程度上能够增强语音信号和抑制非语音信号。常用的特征参数有:线性预测分析系数是模拟人类的发声原理,通过分析声道短管级联的模型而得到的特征参数;感知线性预测系数是基于听觉模型通过计算应用到频谱分析中,将输入语音信号经过人耳听觉模型处理,替代线性预测编码LPC所用的时域信号的等效于LPC的全极点模型预测多项式的特征参数;Tandem特征和Bottleneck特征是利用神经网络提取的两类特征;基于滤波器组的Fbank特征相当于MFCC去掉最后一步的离散余弦变换,跟MFCC特征相比保留了更多的原始语音数据;线性预测倒谱系数是基于声道模型丢弃了信号生成过程中的语音激励信息而用十多个倒谱系数代表共振峰的特性的重要特征参数;语音特征参数MFCC作为最广泛的语音特征参数,该提取过程为首先对语音进行预加重、分帧、加窗、加速傅里叶变换等预处理,然后将能量谱通过一组Mel尺度的三角形滤波器组进行滤波,计算每个滤波器组输出的对数能量经离散余弦变换(DCT)得到MFCC系数,求出Mel-scale Cepstrum参数再提取动态差分参数即梅尔倒谱系数。2012年S.Al-Rawahya等人参考MFCC特征提取方法,对语音预处理后得到的DCT倒谱系数进行等频域分割,提出Histogram DCT倒谱系数的方法。我们发现等频域分割倒谱系数会忽略音声数据的动态特性,因此本发明在此基础上提出一种新的音声特征提取算法即基于动态分割逆离散余弦变换倒谱系数的方法,结合无监督学习利用层次聚类方法将音声数据根据其动态特征的相似性进行聚类分析,从而提取出更能描述音声特性的动态特征向量。
在现有的研究中,最被广泛应用的一种语音识别技术是将MFCC作为音声特征向量,并结合高斯混合模型(GMM)、隐马尔科夫模型(HMM)和支持向量机(SVM)等机器学习方法进行说话人模式匹配。MFCC的提取过程为:首先对语音进行预加重、分帧、加窗、加速傅里叶变换预处理;然后将能量谱通过一组Mel尺度的三角形滤波器组进行滤波;计算每个滤波器组输出的对数能量经离散余弦变换(DCT)得到MFCC系数将得到的对数能量带入离散余弦变换,求出Mel-scale Cepstrum参数再提取动态差分参数即梅尔倒谱系数MFCC。
S.Al-Rawahya等人在2012年研究发现了DCT Cepstrum这个新的特征,他们提出的基于等频域DCT Cepstrum系数的音声特征提取算法。将预处理后的音声信号转换成频域,即将预处理后的音声信号从时域卷积转换为频域谱乘法形式,对其取对数,得到的分量以相加形式表示,得到离散余弦变换倒谱系数(DCT Cepstrum系数)。DCT倒谱系数以非线性增量记录频率范围的周期性,在0Hz-600Hz频域间以每50Hz分割频域特征区间,在600Hz-1000Hz频域间以每100Hz分割频域特征区间该过程可以看作是给定语音信号中频率范围周期数的计数。比MFCC特征提取方法更简单、更快捷。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910087494.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音合成方法和系统
- 下一篇:一种会议记录生成方法和装置