[发明专利]基于特征选择和优化的语音情感识别方法在审
| 申请号: | 201811525935.6 | 申请日: | 2018-12-13 | 
| 公开(公告)号: | CN109493886A | 公开(公告)日: | 2019-03-19 | 
| 发明(设计)人: | 陈建春;李欢欢;王金鹏;吴琴;乜亮 | 申请(专利权)人: | 西安电子科技大学 | 
| 主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/24;G10L25/30;G10L25/45 | 
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;朱红星 | 
| 地址: | 710071 陕*** | 国省代码: | 陕西;61 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 语音情感 特征参数 卷积神经网络 特征选择 原始语音 准确率 语音 预处理 提取预处理 端点检测 技术识别 情感识别 情感特征 情感语音 人机交互 手机通讯 算法选择 随机森林 刑事侦查 医学诊断 预加重 分帧 加窗 算法 优化 数据库 应用 分析 | ||
本发明公开了一种基于特征选择和优化的语音情感识别方法,主要解决现有技术识别语音情感准确率较低的问题。其实现方案包括:1)建立情感语音数据库,得到原始语音;2)对原始语音分别进行预加重、分帧加窗以及端点检测的预处理;3)提取预处理后语音的情感特征参数;4)用随机森林算法选择最优的语音情感特征参数;5)将最优语音情感特征参数输入到训练好的卷积神经网络,得到语音的情感识别结果。本发明通过分析语音情感特征的重要性,得到了最优的语音情感特征参数,提升了卷积神经网络算法对语音情感识别的准确率,可应用于手机通讯、人机交互、医学诊断和刑事侦查中对说话人情感的识别。
技术领域
本发明属于语音信号处理技术领域,特别涉及一种语音情感识别方法,可用于手机通讯、人机交互、医学诊断和刑事侦查。
背景技术
最早与语音情感识别相关的研究出现在20世纪80年代中期,这是人类第一次使用声学特征来研究分析情感特征。1999年Moriyama提出,语音和情感之间存在线性关联模型,并实现了语音情感在电子商务中的初步应用。进入21世纪以来,语音情感识别研究工作在多个领域的各个方面都得到了发展,逐步应用于人机交互、手机通讯和临床医学等领域,引起了世界范围内的关注。
语音情感识别,就是语音的情感特征提取及情感语音的识别过程。语音的情感识别是目前信号处理及模式识别领域的一个新的研究热点,在许多领域有着重要的意义,涉及领域有信号处理、心理学研究、虚拟现实技术、新型人机交互技术、模式识别、信息论、发声机理、听觉机理、人工智能等。尽管语音情感分析可以应用于不同的领域,但其实现的方案却大体是一致的。语音情感分析涉及到多种技术与算法,例如,情感特征参数提取、选择以及语音情感识别。其中,情感特征的提取涉及倒谱法、LPC法等信号处理方法;情感特征的选择有主元分析法、线性判别分析法等降维方法;语音的情感识别与机器学习以及深度学习等算法紧密相关。
尽管世界各国的研究者们在语音情感研究的领域也取得了许多的研究成果,但是基于语音情感识别的研究还存在不少的困难,远不能进行实际的应用。因此,继续深入研究语音情感识别是具有重要的意义的。
几十年来,研究者们在语音情感领域的研究取得了很大的进展,但是在研究特征的选择和情感模式的识别时都存在着很多的问题。例如,在基于PCA和SVM的普通话语音情感识别方法中,其情感特征选择算法为主成分分析PCA,用多个SVM进行语音的情感识别,由于PCA算法不适于对非高斯分布的样本进行特征选择,因而这种支持向量机SVM的语音情感识别方法只适用于样本量较少的情况,对于样本量大的情况其核函数映射维度非常高,计算复杂度高,语音情感识别率低,而且对于非线性问题其核函数的选择由于没有通用标准,选择难度大。又如,最近几年出现的卷积神经网络CNN语音情感识别方法,由于仅使用了梅尔频率倒谱系数MFCC、语谱图这一类谱特征,没有加入音质特征和韵律特征,依然不能得到更准确的语音情感识别率。
发明内容
本发明的目的在于针对上述现有技术的缺陷,提出一种基于特征选择和优化的语音情感识别方法,以提高情感识别准确率。
本发明的技术方案是:通过对语音情感特征的选择优化,实现对语音情感识别,其实现步骤包括如下:
(1)从casia汉语情感语料库中选择愤怒、恐惧、高兴和悲伤这四种原始语音,形成语音数据库,这四种语音分别对应四个类别标签;
(2)对原始语音依次进行预加重、加窗分帧和端点检测的预处理,得到预处理后的语音信号x(n);
(3)提取预处理后语音信号x(n)的基音频率F,短时能量E,短时平均过零率Z,第一共振峰频率F1、第二共振峰频率F2和梅尔频率倒谱系数C,得到语音情感的六种特征参数;
(4)提取到语音的六种情感特征参数后,用随机森林模型评估各个特征参数的重要性,删除不重要的特征参数,得到最优的情感特征参数组合:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811525935.6/2.html,转载请声明来源钻瓜专利网。





