[发明专利]音频场景识别方法、装置、电子设备及介质在审

申请号：	202010015772.8	申请日：	2020-01-07
公开（公告）号：	CN111241336A	公开（公告）日：	2020-06-05
发明（设计）人：	陈剑超;肖龙源;李稀敏;蔡振华;刘晓葳	申请（专利权）人：	厦门快商通科技股份有限公司
主分类号：	G06F16/68	分类号：	G06F16/68;G06F16/632
代理公司：	暂无信息	代理人：	暂无信息
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频场景识别方法装置电子设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。其中，所述方法包括：接收音频数据，并对所述音频数据进行音频分割，形成多个音频片段；基于所述多个音频片段进行音频事件检测，得到音频事件检测结果；根据所述音频事件检测结果及预设识别模型，对所述音频数据进行场景识别并标注。由于是首先从音频数据中识别出一段背景声音，然后通过该背景声音确定音频数据的可能边界，这种方法避免了底层音频的特征提取。通过原始音频数据的采样值来实现音频数据的分割，从而减少了人工手工标注量，提高了相关算法的运行效率，对音频标注规范提供了统一标准。

技术领域

本申请涉及音频识别技术领域，具体涉及一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。

背景技术

音频场景识别是指对于一个音频数据，识别出该音频数据所发生的环境，或者换句话说，音频场景识别是指通过音频信息来感知周围环境。音频场景识别技术具有非常广泛的应用价值，将其用于移动终端设备可以使设备很好地感知周围环境，进而能自动地调整设备状态。

基于文本的音频检索技术，是把每段音频作为一个对象存储在数据库中，一般通过音频名字(关键字)以及文本信息对其进行标注，音频的检索，是根据该音频的关键字描述进行精确查找或模糊查找。可见，这种基于文本的音频检索技术，是通过文本检索技术进行的，音频信息在整个检索过程中没起到任何作用。现在大部分的音频检索系统都是基于文本的音频检索，如各大音乐搜索引擎目前均采用这种基于文本的音频检索方式来检索音频。

现实生活中，我们接触到的声音极其广泛，从大自然的声音如风雨声、动物的叫声、流水声，到生活中各种声音如机器轰鸣、汽车发动机声，以及在计算机中接触到的各种音频、语音和合成的声音。

而传统的基于文本的音频检索技术，需要人工提前对音频库中的音频进行归纳和注释，音频检索结果也完全依赖于人工标注的音频名称、编号、注释等信息。但因为每一段音频都需要进行文字标注，因此如果音频数据库较大的话，标注需要大量的人工劳动，并且这种文字标注有很强的人为主观性，对于同一段音频标注，不同人可能有不同的看法，因此标注信息将不尽一致，且少量的文字很难充分表达一个音频的内涵。

发明内容

本申请的目的是提供一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。

本申请第一方面提供一种音频场景识别方法，包括：

接收音频数据，并对所述音频数据进行音频分割，形成多个音频片段；

基于所述多个音频片段进行音频事件检测，得到音频事件检测结果；

根据所述音频事件检测结果及预设识别模型，对所述音频数据进行场景识别并标注。

在一些可能的实现方式中，所述对所述音频数据进行音频分割，形成多个音频片段，包括：

将所述音频数据输入预设背景声音识别模型，获得所述音频数据中的背景声音；

提取所述音频数据的波形值组成一个矩阵，并将该矩阵和所述背景声音都投影到特征空间中，获得所述音频数据的特征向量和所述背景声音的特征向量；

计算所述音频数据的特征向量和所述背景声音的特征向量的归一化距离；

根据所述归一化距离确定所述音频数据的分割点位置，根据所述分割点位置对所述音频数据进行音频分割，形成多个音频片段。

在一些可能的实现方式中，所述基于所述多个音频片段进行音频事件检测，得到音频事件检测结果，包括：