[发明专利]一种融合长跨度情感历史的语音情感识别方法有效
申请号: | 201310481318.1 | 申请日: | 2013-10-15 |
公开(公告)号: | CN103531207A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 陶建华;杨明浩;巢林林 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L25/63 | 分类号: | G10L25/63;G10L15/08;G10L15/06 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 跨度 情感 历史 语音 识别 方法 | ||
1.一种融合长跨度情感历史的语音情感识别方法,其特征在于,该方法包括以下步骤:
步骤S1,输入待识别的语音序列,并利用时域和变换域上的不同参数进行端点检测,剔除原始语音序列中的非语音数据,获得待识别的语音段数据;
步骤S2,将所述待识别的语音段数据切分为独立的语音段数据单元;
步骤S3,利用第一支持向量机对所述语音段数据单元分别进行情感状态初步分类,并将分类结果使用相应后验概率的形式来表示;
步骤S4,对所述步骤S3得到的情感状态初步分类结果进行加窗,并利用第二支持向量机对所述初步分类结果进行融合,得到融合长跨度情感历史的情感识别结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中剔除原始语音序列中的非语音数据具体为:利用短时能量和短时过零率从原始语音序列中检测出静音段数据和宽带噪声;通过分析语音序列数据中各频带能量的比重从原始语音序列中检测出周期噪声和冲击性噪声,从而从原始语音序列中保留语音数据,剔除非语音数据。
3.根据权利要求1所述的方法,其特征在于,所述独立的语音段数据单元为单词级别独立语音段数据单元、句子级别独立语音段数据单元或等间隔独立语音段数据单元。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括以下步骤:
步骤S31,对每个语音段数据单元分别进行特征参数提取;
步骤S32,对于所述步骤S31提取得到的每个语音段数据单元的特征参数,利用支持向量机算法进行分类,以使每个语音段数据单元分别产生针对于每个情感类别的后验概率。
5.根据权利要求4所述的方法,其特征在于,所述步骤S32进一步包括以下步骤:
步骤S321,针对情感空间的三个维度,利用所述第一支持向量机分别训练得到一个分类模型,共得到三个分类模型;
步骤S322,将每个语音段数据单元在所述步骤S31提取得到的特征参数送入所述三个分类模型中,从而获得三个情感空间维度上的分类结果,其中每个维度上的分类结果分别包含一个标签,以及对应于该标签的后验概率。
6.根据权利要求4所述的方法,其特征在于,所述步骤S4进一步包括以下步骤:
步骤S41,针对情感空间的三个维度,利用所述第二支持向量机分别训练得到一个分类模型,共得到三个分类模型;
步骤S42,将每个语音段数据单元在所述步骤S32所获得的后验概率作为特征参数分别送入所述步骤S41所得到的三个分类模型中,从而获得所述语音段数据单元在三个情感空间维度上的分类结果。
7.根据权利要求4所述的方法,其特征在于,对于所述第一支持向量机,输入特征为所述步骤S31提取得到的特征参数,输入的标签为每个语音段数据单元在对应维度上的标签,输出为针对于每个情感类别的后验概率;对于所述第二支持向量机,输入特征向量为按时间顺序连续N个单元在所述步骤S32所获得的情感类别后验概率,输出为按时间顺序最后出现的一个语音段数据单元的实际情感类别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310481318.1/1.html,转载请声明来源钻瓜专利网。