[发明专利]基于似然概率模糊熵的紧张状态下语音情绪自动识别方法在审
申请号: | 201610024270.5 | 申请日: | 2016-01-14 |
公开(公告)号: | CN105719664A | 公开(公告)日: | 2016-06-29 |
发明(设计)人: | 周锋;孙冬生;王如刚;周六英 | 申请(专利权)人: | 盐城工学院 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L25/27;G10L15/01;G10L15/02;G10L15/18 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 陈静 |
地址: | 224051*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 概率 模糊 紧张状态 语音 情绪 自动识别 方法 | ||
技术领域
本发明涉及语音识别方法,尤其涉及一种基于似然概率模糊熵的紧张状态下语音情绪自动识别方法。
背景技术
在人工智能中,情感计算被认为是赋予计算机更高的、全面的智能的一个关键途径。在人机交互中,赋予计算机拟人的情感能力,使其能感知周围的环境和气氛,自适应提供最舒适的交互环境,尽量消除人和机器之间的障碍,已经成为下一代计算机发展的目标。语音情感识别技术运用模式识别的方法从语音信号中提取出说话人的情感状态信息,从而使计算机能够自动的识别语音情感,是情感计算的一个重要部分,是自然人机交互的一个重要基础。
现有的语音情感识别的研究主要集中在基本情感类别论中指出的几种情感,包括喜悦、愤怒、惊讶、悲伤和恐惧等,但对于紧张等具有特殊意义的语音情感缺乏研究。目前的语音情感识别方法不能对紧张情绪进行较好的识别。对紧张情绪状态的识别具有很高的应用价值,特别是在航空航天等军事应用领域中,长时间的、枯燥的、高强度的任务会使相关人员面临严酷的生理以及心理考验,引发紧张等一些负面的情绪。紧张情绪出现后,如果不妥善的处理,对人员的工作能力会造成重大的影响,甚至引起人为的疏忽导致事故。探讨紧张等负面情绪对于人类认知活动的作用机制和影响因素,研究提高个体认知和工作效率的方法、避免影响认知和工作能力的因素,具有重大的实际意义。
目前在语音情感识别研究中,面临着情感语料真实度的问题。通过表演的方式采集的情感语料数据,称为表演语料。目前大部分的语音情感识别研究是基于表演语料的。表演语料的优点是容易采集,缺点是情感表现夸张,与实际的自然语音有一定的差别,因此导致表演数据的可靠性较差。基于表演情感语料建立情感识别系统,由于用于识别模型训练的数据与实际的数据有一定的差别,导致了在实际条件下识别性能的下降。通过诱发的方法采集的情感语料称为诱发语料。诱发语料的特点是自然度较高,而且便于通过实验心理学的方法控制获得所需要的特定情感的语料。现有的中文语音情感识别中关于紧张情绪的诱发语料库十分匮乏。
人类的情感具有模糊性和多样性,在语音情感识别中,传统的识别方法是将出现的样本硬性的划分为已知类别中的某一类,这种做法的缺陷是,在现实中存在较多模糊不清的情感样本时,分类的可信度较差,误判的概率较高。
发明内容
发明目的:针对现有技术中语音情感识别技术在实际应用中关于紧张情绪的空白之处,提供一种基于似然概率模糊熵的紧张状态下语音情绪自动识别方法。
技术方案:一种基于似然概率模糊熵的紧张状态下语音情绪自动识别方法,包括如下步骤:
(1)建立语音数据库,所述语音数据库包括紧张、喜悦和平静的语音数据;
(2)从语音数据库中提取语音情感特征,所述语音情感特征包括韵律情感特征和音质情感特征;
(3)采用fisher准则对语音情感特征进行特征评价,选择识别特征;
(4)依据识别特征利用似然概率模糊熵判断待识别样本的情感类别,并在模糊熵超过阈值时拒判。
进一步的,步骤(1)具体包括如下子步骤:
(1-1)被试对象分别录制紧张、喜悦和平静的语音片段;
(1-2)筛选出紧张、喜悦和平静的语音数据。
进一步的,步骤(2)中所述的韵律情感特征包括:短时能量的均值、最大值、最小值、中值、方差;短时能量差分的均值、最大值、最小值、中值、方差;基音的均值、最大值、最小值、中值、方差;基音一阶差分的均值、最大值、最小值、中值、方差;基音二阶差分的均值、最大值、最小值、中值、方差;基音范围;发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数。
进一步的,步骤(2)中所述的音质情感特征包括:第一共振峰的均值、最大值、最小值、中值、方差;第二共振峰的均值、最大值、最小值、中值、方差;第三共振峰的均值、最大值、最小值、中值、方差;第一共振峰一阶差分的均值、最大值、最小值、中值、方差;第二共振峰一阶差分的均值、最大值、最小值、中值、方差;第三共振峰一阶差分的均值、最大值、最小值、中值、方差;250Hz以下谱能量百分比、650Hz以下谱能量百分比、4kHz以上谱能量百分比;谐波噪声比(HNR)的均值、最大值、最小值、中值、方差。
进一步的,步骤(3)中所述的fisher准则对第d个维度具体表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盐城工学院,未经盐城工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610024270.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有无线LAN功能的录音重放装置
- 下一篇:一种语音识别的方法及系统