[发明专利]一种基于背景噪声最小统计量特征的声音环境识别方法有效

申请号：	201310507384.1	申请日：	2013-10-24
公开（公告）号：	CN103544953A	公开（公告）日：	2014-01-29
发明（设计）人：	邓世文	申请（专利权）人：	哈尔滨师范大学
主分类号：	G10L15/20	分类号：	G10L15/20;G10L15/02;G10L15/06;G10L15/08
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	杨立超
地址：	150080 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于背景噪声最小统计特征声音环境识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及声音场景的分类识别技术，属于智能信息处理领域，具体是一种基于声音环境的背景噪声特点来对不同的声音环境进行建模与识别的方法。

背景技术

随着计算技术、通讯技术及网络技术的迅猛发展，各种各样的智能化设备不断涌现，研究智能人机交互在现实生活中变得越来越重要。声音是人们能够获取的最重要的信息之一，开展声音感知技术的研究无疑可以帮助用户有效地利用声音信息并提供相关服务。因此，近年来声音感知技术的研究受到学术界的广泛重视。声音感知的目标是使计算机能够感知人类听觉系统所能够关注和理解的那些声音，其研究对象是非语音的声音。与人类的语音相似，非语音的声音也能传递有用信息。在特定环境中人的活动通常伴随产生种类丰富的声音事件，这些声学事件可能由人们的身体直接产生也可能由人们所操纵的器物产生，即这些声音事件在一定程度上反映了人们的活动情况以及周围的环境状况。因此，研究特定环境下的声音事件有助于掌握人们的行为活动和环境状态，以提供相关的智能服务或安全预警，从而使声音信息能够更有效地为智能信息系统提供决策辅助或直接用于智能决策。

然而，我们所处的声音环境具有极其丰富的声音事件，试图为每种声学事件建模并识别是不现实的，也是计算上不可行的。因此，获取声音环境的先验知识对声音事件的检测与识别就显得格外重要了。每种声音环境下都含有较为特定的一些声音事件，如办公室的声音环境下较为可能出的声音事件是键盘声、脚步声、椅子声、人的说话声、掌声等，而不太可能出现汽车鸣笛声、动物叫声、欢呼声等。可见，声音环境的先验知识有助于缩小声学事件的数量、提高检测精度、减少计算代价。此外，为实现对与日俱增的数字音频数据的智能检索，也需要对数字音频文件按照其声音环境识别的结果进行有效地自动分割。

声音环境识别就是仅依赖特定环境中的声音信息对环境进行识别的一种技术。例如：依赖采集到的声音信号来识别当前环境是街道、办公室、高速公路还是餐馆等。声音环境识别存在着如下困难：1）声音环境存在着较强的结构复杂性，多种声音相互交织混叠在一起；2）声音环境存在着较强的混淆性，相同的声音可以出现在不同的声音环境中；3）声音环境中的声音存在着较大的不确定性，很难确定某个声音环境就必然出现某种声音或何时出时，难于描述其稳定的声学性质；4）声学特征通常具有较高的维度，使得难于利用这些特征进行建模。这些困难使得声音环境难于进行特征提取与建模，并直接导致其识别精度较差。显然，缺少能够标识声音环境的鲁棒特征是导致这一问题的主要原因。因此，如果所提取的声学特征能够克服声音环境的结构复杂、易混淆、声学特征不确定和维度高等问题的影响，则有助于是提高声音环境的识别性能。

本发明针对声音的环境识别问题，提出了一种基于背景噪声最小统计量特征的声音环境识别方法，可以实现对复杂声音环境的鲁棒识别。

发明内容

要解决的技术问题

本发明为了解决在声音环境识别中由于声音环境结构复杂、易混淆、声学特征不确定和维度高所造成的提取有效特征、建立统计模型困难、特征鲁棒性差，从而导致识别性能差的问题。

本发明为解决上述技术问题采取的技术方案是：

一种基于背景噪声最小统计量特征的声音环境识别方法，它由以下步骤实现：

步骤一、将采集的声音信号进行短时傅里叶变换得到信号的能量谱，而后对能量谱系数分别进行频域平滑和时域平滑，对平滑后的结果进行最小统计量追踪，提取出最小统计量并将其映射到对数域后进行标准化；

步骤二、将在训练数据上使用步骤一所得到的标准化后的最小统计量进行特征值分解，提取前K个重要基向量U_K；将标准化后的最小统计量投影到K个重要基向量U_K上得到降维后的特征，完成特征提取过程；将重要基向量U_K进行存储以用于声音环境识别步骤四中；

步骤三、依据步骤二中所得到的训练数据降维后的最小统计量特征，采用高斯混合模型分别对每类环境声音进行建模，得到高斯混合模型（GMM）并将其进行存储以用于声音环境识别步骤四中；

步骤四、利用步骤一对所采集的声音信号提取标准化后的最小噪声统计量特征，利用步骤二所得到的重要基向量U_K对其进行降维，完成对采集声音信号的特征提取；再利用步骤三所得到的高斯混合模型（GMM）进行声音环境识别。

步骤一中提取声音信号最小统计量的方法为：

步骤一（1）、对采集的声音信号进行短时傅里叶变换：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨师范大学，未经哈尔滨师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310507384.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于背景噪声最小统计量特征的声音环境识别方法有效

专利文献下载