[发明专利]利用特征结合对语音情感进行识别的方法及其装置无效

申请号：	201310199939.0	申请日：	2013-05-24
公开（公告）号：	CN103258537A	公开（公告）日：	2013-08-21
发明（设计）人：	张庆莉;王坤侠;安宁;李廉	申请（专利权）人：	安宁
主分类号：	G10L17/26	分类号：	G10L17/26;G10L25/63;G10L15/02
代理公司：	安徽汇朴律师事务所 34116	代理人：	方荣肖
地址：	230061 安徽省合肥市包河***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	利用特征结合语音情感进行识别方法及其装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种利用特征结合对语音情感进行识别的方法，其基于高斯混合模型结合美尔频率倒谱系数和自相关函数系数，对语音情感进行识别；其特征在于：该方法包括以下步骤：

一、构建和学习高斯混合模型，高斯混合模型满足公式（1）：p(x→|λ)=Σi=1Mωibi(x→)---(1)]]>；其中，是D维随机向量；ω_i,i=1……M是混合权重；是单一高斯密度的组合密度，满足公式（2）：bi(x→)=1(2π)D/2|Σi|1/2exp{-12(x→-μi→)′Σi-1(x→-μi→)}---(2)]]>；其中，是平均值；Σ_i是协方差矩阵；λ是对参数平均值、协方差矩阵以及权重的总体表达形式，满足公式（3）：λ={ωi,μi→,Σi}i=1,......,M---(3)]]>；

二、选择和提取语音特征：

a)美尔频率倒谱系数的提取过程：

1.预加重（pre-emphasis）：将经采样后的数字语音信号s(n)通过一个高通滤波器，经过预加重后的信号为s'(n)=s(n)-a×s(n-1)，进行预加重的目的是为了消除声带和嘴唇的效应，来补偿语音信号的高频部分；

2.分帧（frame blocking）：取10-20ms为一帧，取帧长的一半作为帧移，每次位移一帧的二分之一后再取下一帧；

3.计算短时能量（energy）：短时能量代表音量的高低，亦即声音振幅的大小，根据此能量的值来过滤掉语音信号中的噪声而形成静音段（silence）；

4.加窗（hamming window）：将每一帧代入窗函数，窗外的值设定为0，其目的是消除各个帧两端可能会造成的信号不连续；

5.快速福利叶变换（FFT transform）：将加窗后的帧经过FFT（Fast Fourier Transform）求出每帧的频谱参数；

6.三角带通滤波器（triangular band-pass filter）：将每帧的频谱参数通过一组N个三角形带通滤波器所组成的美尔刻度滤波器，将每个频带的输出取对数，求出每一个输出的对数能量（log energy），k=1,2…N；再将此N个参数进行余弦变换（cosine transform）求出L阶的Mel-scale cepstrum参数；

b)自相关函数（ACF）的提取过程：

定义自相关函数满足公式（3）为：P(k)=limN→∞12N+1Σ-∞∞x(m)x(m+k)---(3)]]>；其中，P(k)表示将语音信号延迟后与语音信号本身的相似性，k是自相关的延迟时间；

三、将美尔频率倒谱系数和自相关函数系数相互结合，组成特征矩阵，在高斯混合模型的基础上对柏林语料库的语音进行情感识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安宁，未经安宁许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310199939.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]利用特征结合对语音情感进行识别的方法及其装置无效

专利文献下载