[发明专利]一种音频场景识别方法、系统及装置有效
申请号: | 202111064395.8 | 申请日: | 2021-09-10 |
公开(公告)号: | CN113793622B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 张鹏远;王猛;颜永红 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/30;G10L25/45;G06F18/213;G06F18/24;G06N3/0464;G06N3/084 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 场景 识别 方法 系统 装置 | ||
本发明涉及一种音频场景识别方法,方法包括:获取待识别音频;对待识别音频进行小波特征提取,以确定待识别音频对应的小波特征;将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中,以得到至少一个深度嵌入特征序列;将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中,以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征,可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,还可极大提升对短时音频的识别性能。
技术领域
本发明涉及音频识别领域,尤其是涉及一种基于小波特征和一维残差神经网络的音频场景识别方法、系统及装置。
背景技术
声音是人类生活中交流信息的重要渠道,而在日常生活中,声音大体可以分为语音和环境音。对于人们一般是通过语音的方式进行交流。而环境音则与语音不同,其独立于当前说话人,环境音包含了自然界和人类活动的丰富信息。
音频场景识别是对环境声音进行理解的一种基础任务,同时也是音频信息处理的一个重要研究方向。其主要目标是识别出一段音频的特定场景标签,从而达到感知周围环境的目的。目前音频场景识别的技术已经广泛应用在智能机器人和众多终端设备上。
然而,传统的音频场景识别方式一般采用机器学习方法,例如最近邻算法、隐马尔科夫模型、支持向量机等。但是,此类传统方法在较大数据量的情况下表现并不好,均已经到达了瓶颈。
近年来,基于深度神经网络的方法在音频场景识别方向也迅速发展,由于深度神经网络可以提取出音频更深的特征,从而可以进行更好的分类。而目前采用深度神经网络的方式是基于二维卷积的全连接卷积神经网络。该网络在判断长时音频时效果不错,例如10秒及以上。但是,在判断短时音频时性能则会出现明显的下降,短时音频例如1秒左右。显然,现在亟需一种可以克服上述问题的音频场景识别方案。
发明内容
本发明涉及一种音频场景识别方法,通过提取待识别语音数据的小波特征,并根据具有残差网络结构的神经网络嵌入特征提取器从该小波特征中提取出深度嵌入特征序列,以便可以利用提取出的深度嵌入特征序列确定出待识别音频所对应的音频场景。本发明的小波特征可以自适应时频信号分析的要求,结合具有残差网络结构的神经网络可以在大量数据训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,并且极大提升对短时音频的识别性能。
为实现上述目的,本发明第一方面提供了一种音频场景识别方法,方法包括:获取待识别音频;对待识别音频进行小波特征提取,以确定待识别音频对应的小波特征;将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中,以得到至少一个深度嵌入特征序列;将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中,以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征,可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,还可极大提升对短时音频的识别性能。
优选地,对待识别音频进行小波特征提取,以确定待识别音频对应的小波特征,包括:确定待识别音频对应的频谱;将频谱通过多个小波滤波器得到待识别音频对应的小波特征。
优选地,确定待识别音频中对应的频谱,包括:对待识别音频进行预加重;对预加重后的待识别音频进行分帧加窗,确定出多帧预加重后的待识别音频;针对多帧预加重后的待识别音频中的每一帧进行快速傅里叶变换,以确定出各帧对应的频谱。
优选地,分帧加窗包括:以每帧为512毫秒,帧移171毫秒进行分帧;以及,采用汉明窗作为窗函数进行加窗。本发明采用上述方式进行分帧加窗,可以有效提升音频场景识别的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111064395.8/2.html,转载请声明来源钻瓜专利网。