[发明专利]用于音频场景分类的音频处理装置及其方法在审
申请号: | 201880099051.0 | 申请日: | 2018-12-21 |
公开(公告)号: | CN112955954A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 耶塞妮娅·拉库蒂尔·帕罗蒂;弗洛里安·艾本;安德里亚·克雷斯皮;邓军 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 王君;肖鹂 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 音频 场景 分类 处理 装置 及其 方法 | ||
本发明涉及一种被配置为将音频信号分类为一个或多个音频场景类别的音频处理装置(200),所述音频信号包括分量信号。所述装置(200)包括:处理电路,被配置为:将所述音频信号的所述分量信号分类为前景层分量信号或背景层分量信号;基于所述音频信号获得音频信号特征;根据对所述分量信号的所述分类,选择第一权重集或第二权重集;以及基于所述音频信号特征、所述前景层分量信号或所述背景层分量信号以及所述选择的权重集,对所述音频信号进行分类。
技术领域
总体上,本发明涉及音频处理。具体地,本发明涉及一种用于对音频场景进行分类的音频处理装置以及对应方法。
背景技术
声音或音频场景分类(ASC)是一种旨在根据在该位置记录的声音(发生在特定环境中的声音事件和/或环境自身产生的声音)来识别环境类型(汽车、办公室、街道、家庭、餐厅等)的技术。任务是将语义标签与标识环境的音频流相关联。首先,从训练集中的每个声学场景推导的特征矢量用于训练统计模型,该模型汇总属于同一类别的音景的特性。然后,定义决策标准,以将未标记的记录分配给与其特征分布相匹配的类别。
ASC流程分成训练阶段和分类阶段。模型训练阶段涉及根据合适的分类器(支持矢量机、SVM、高斯混合模型、GMM、神经网络等)对场景模型104进行估计。通过从音频记录数据库101的每个示例提取音频特征102并通过使用所有类别的已知样本来训练系统,完成模型训练阶段103,如图1a所示。
分类阶段需要在训练阶段中获得的场景模型113,并且分类阶段涉及从音频样本提取相同特征112。基于这些输入,音频样本被分类114为匹配的类别,如图1b所示。
ASC方案的重要部分是定义和提取表征特定环境的特性——音频特征。当前ASC方案利用几类音频特征,通常是从语音分析和听觉研究中借用的音频特征。在严格受限的分类方案中,某些事件的识别可以帮助表征总体环境,然而,在现实生活环境中,这些方法存在以下缺点。声音事件需要手动定义和选择,在现实生活环境中通常存在大量这类声音事件,并且定义和选择所有这类事件是不现实的。难以确保某些声音事件必定在特定声学环境中出现,并且某些声音事件也可以在不同的声学环境中听到。表征某个环境的一系列声事件通常是无界的,而且很难一概而论,因此,现有技术无法直接应用于软约束的ASC问题。
发明内容
本发明的目的是提供一种用于对音频场景进行分类的改进型音频处理装置以及对应的音频处理方法。
前述和其他目的是通过独立权利要求的主题来实现的。根据从属权利要求、说明书和附图,进一步的实现方式是显而易见的。
通常,一些实施例将帧级特征(例如,对数梅尔频谱)与二进制特征合并,该二进制特征根据其对声学场景(或背景层)的背景或对声学场景(或前景层)的前景的亲和力来表征输入信号中的每个帧。然后,可以在一种“事件通知”深度神经网络(DNN)的上下文中使用这些特征,其中,主要特征矢量用作DNN的标准输入特征,而二进制层特征则以卷积的方式用于DNN,同时在预训练/初始化阶段用作目标,然后在实际的训练和分类阶段作为控制参数被馈送至网络的中间层。因此,本发明的实施例通过使神经网络学习根据输入帧的性质(即,其对给定声学场景的前景或背景的亲和力)来提高输入特征的有效性。实施例可以被实现为环境感知服务,例如,在智能电话、平板电脑或智能可穿戴设备中。本发明的实施例通过对场景的声音的深入分析来对设备的环境进行分类。
根据第一方面,本发明涉及一种音频处理装置,被配置为将音频信号分类为一个或多个音频场景类别,其中,所述音频信号包括分量信号。所述装置包括被配置为执行以下操作的处理电路:将音频信号的分量信号分类为前景层分量信号或背景层分量信号;基于音频信号获得音频信号特征;根据对分量信号的分类,选择第一权重集或第二权重集;以及基于音频信号特征、前景层分量信号或背景层分量信号以及选择的权重集,对音频信号进行分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880099051.0/2.html,转载请声明来源钻瓜专利网。