[发明专利]一种小型说话人情感识别系统在审

专利信息
申请号: 201410750977.5 申请日: 2014-12-10
公开(公告)号: CN104464756A 公开(公告)日: 2015-03-25
发明(设计)人: 冯秀霞 申请(专利权)人: 黑龙江真美广播通讯器材有限公司
主分类号: G10L25/63 分类号: G10L25/63
代理公司: 暂无信息 代理人: 暂无信息
地址: 150300 黑龙江省哈尔*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 小型 说话 人情 识别 系统
【说明书】:

技术领域

    本发明涉及的是一种语音情感识别系统,特别涉及一种小型说话人情感识别系统。

    背景技术

    语音是人与人之间交流的重要手段,声音是信息的载体,人们可以通过声音来获得其中的信息,其中自然包括情感信息。语音是人类相互交流的一种重要工具,也是传递情感的一种重要媒介。语音信号所包含的不止是文字信息,同时还夹杂着人的情感。同样是一句话,其中可以包含不同的情感,而情感不同,那么这句话的意思就有可能发生变化,如果计算机无法从操作者的语音中获得其情感,那么就不可能达到最佳的交流效果,甚至有可能会对操作者的意思产生误解,从而产生误动作,给操作者带来不便。

语音信号处理是一个重要的研究领域,至今已有很长的研究历史,而语音信号的情感研究则是一个新兴领域,但它是一个综合了多类学科的研究课题。其中主要包含了生理学、心理学、以及信号处理等重要学科。同时该课题的研究成果—语音情感识别系统具有相当宽广的应用前景,具体可以应用在:

1、远程网络教学,在远程网络教学系统中可以加入情感识别系统,通过判断学习者的情感表达是否得体,可以让学习者更好的提高带有丰富情感的朗读能力。

2、用于刑侦领域,情感识别系统可以制作成一个测谎仪,利用其推断测试者的语言真实程度。随着技术的不断提高,可以不断完善测谎仪的功能并将其用于现实中,因此情感识别系统对于刑侦领域来说也具有相当重要的实际意义。

3、娱乐游戏,目前大多数游戏都是通过文字来传达信息,而如果在游戏中加语音的情感识别及表达则可以丰富信息的传递方式,同时也更能吸引玩家。通过这种新颖的方式可以在一定程度上缓解玩家在游戏过程中的疲劳度,玩家也能同时获得听觉与视觉上的享受,增加了游戏的可玩程度。

    发明内容

本发明的目的是提供一种利用一个小型的情感语音库利用其作为语音做训练样本,用于构建参考模板,对每种情感的识别率进行统计的人情感识别系统。

本发明的目的是这样实现的:本发明的第一步工作是在阅读了国内外大量资料的基础上建立了一个小型的情感语音库,将其中一部分语音做训练样本,用于构建参考模板;另一部分做测试样本,用于后续的情感识别实验。第二步是对已获得语音库中的语音进行预处理,其步骤主要包括预加重、加窗分帧以及语音端点检测。第三步是对预处理之后的语音信号进行情感参数的提取工作,情感参数包括基音频率、共振峰、梅尔频率倒谱系数及其相关统计参数。用软件对参数的提取进行仿真实验,得到不同情感类型的各个参数的分布范围,并对结果进行简要的分析。第四步是进行语音情感识别实验,将训练语音的情感参数用基于支持向量机的情感分类器进行分类,之后再用其对测试语音进行预测,判断其属于何种情感。实验之后对每种情感的识别率进行统计,对最终的统计结果进行分析。最后,为整个系统设计了一个简单的人机界面,该界面可以完成输入测试语音、显示系统对该语音的识别结果以及对结果进行清空的功能。

自己录制一个小规模的汉语情感语音库,库中语音的情感分为四类:喜悦、愤怒、悲伤、惊奇。录制者为6人均为男生,每人对4个语音文本分别用4种情感进行朗读,每种情感朗读4遍,总共获得384个样本作为实验用情感语音库。采用SVM的方法对情感进行分类,其中SVM采用“一对一”方法来解决多分类的问题。最后分别用语音的韵律特征包括基音及共振峰的相关参数、语音特征MFCC相关参数及两者结合作为情感特征做了识别,并对识别结果进行了分析对比。实验中,在用全部11个参数进行识别时,最终所得到的4种情感的平均识别率为79.15%,悲伤的识别率最高为83.3%。同时发现,喜悦与愤怒这两种情感之间最容易发生误识别现象。

附图说明

图1为语音情感识别流程图。

具体实施方式

下面结合附图举例对本发明做更详细地描述:

实施例1

结合图1,图1为语音情感识别流程图。1、情感语音库的获取。由于目前语音情感识别都是针对他国语言而言的,汉语在这方面的研究则开展的相对较少,找不到一个专门用于情感识别的汉语情感语音库。因此进行识别研究之前的准备工就是自己录制一个小规模的汉语的情感语音库,然后基于该语音库进行后续研究。2、语音信号的预处理。由于语音信号的特点,对于语音库中的语音信号并不能直接提取其中的情感特征参数,必须先进行一步前端处理,包括预加重、加窗分帧及端点检测。3、情感特征参数的提取。预处理之后则是提取信号中的情感特征参数,其中主要包括两种类别,一类是声学特征参数,包括12阶MFCC参数和共振峰参数。另一类是韵律特征参数,包括语音的基音频率,短时能量,平均过零率等参数。并在此基础上进行了细化,最终选取了基音频率平均值、最大值、最小值,第一共振峰平均值、最大值,以及MFCC的第10个、11个、12个参数作为情感特征参数。4、情感分类器的设计。本发明采用了基于支持向量机(Support Vector Machine)的语音情感分类器的设计,由于目前的svm都只适用于二分类,而如果要实现多分类,则需要在每两个样本间设计一个svm,在需要对未知样本进行分类时,则要通过投票来最终确定其类别。这就是所谓的“一对一”法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江真美广播通讯器材有限公司,未经黑龙江真美广播通讯器材有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410750977.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top