[发明专利]音频场景识别方法、装置、电子设备及介质在审
申请号: | 202010015772.8 | 申请日: | 2020-01-07 |
公开(公告)号: | CN111241336A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 陈剑超;肖龙源;李稀敏;蔡振华;刘晓葳 | 申请(专利权)人: | 厦门快商通科技股份有限公司 |
主分类号: | G06F16/68 | 分类号: | G06F16/68;G06F16/632 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 场景 识别 方法 装置 电子设备 介质 | ||
本申请提供一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。其中,所述方法包括:接收音频数据,并对所述音频数据进行音频分割,形成多个音频片段;基于所述多个音频片段进行音频事件检测,得到音频事件检测结果;根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注。由于是首先从音频数据中识别出一段背景声音,然后通过该背景声音确定音频数据的可能边界,这种方法避免了底层音频的特征提取。通过原始音频数据的采样值来实现音频数据的分割,从而减少了人工手工标注量,提高了相关算法的运行效率,对音频标注规范提供了统一标准。
技术领域
本申请涉及音频识别技术领域,具体涉及一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。
背景技术
音频场景识别是指对于一个音频数据,识别出该音频数据所发生的环境,或者换句话说,音频场景识别是指通过音频信息来感知周围环境。音频场景识别技术具有非常广泛的应用价值,将其用于移动终端设备可以使设备很好地感知周围环境,进而能自动地调整设备状态。
基于文本的音频检索技术,是把每段音频作为一个对象存储在数据库中,一般通过音频名字(关键字)以及文本信息对其进行标注,音频的检索,是根据该音频的关键字描述进行精确查找或模糊查找。可见,这种基于文本的音频检索技术,是通过文本检索技术进行的,音频信息在整个检索过程中没起到任何作用。现在大部分的音频检索系统都是基于文本的音频检索,如各大音乐搜索引擎目前均采用这种基于文本的音频检索方式来检索音频。
现实生活中,我们接触到的声音极其广泛,从大自然的声音如风雨声、动物的叫声、流水声,到生活中各种声音如机器轰鸣、汽车发动机声,以及在计算机中接触到的各种音频、语音和合成的声音。
而传统的基于文本的音频检索技术,需要人工提前对音频库中的音频进行归纳和注释,音频检索结果也完全依赖于人工标注的音频名称、编号、注释等信息。但因为每一段音频都需要进行文字标注,因此如果音频数据库较大的话,标注需要大量的人工劳动,并且这种文字标注有很强的人为主观性,对于同一段音频标注,不同人可能有不同的看法,因此标注信息将不尽一致,且少量的文字很难充分表达一个音频的内涵。
发明内容
本申请的目的是提供一种音频场景识别方法及装置、一种电子设备以及一种计算机可读介质。
本申请第一方面提供一种音频场景识别方法,包括:
接收音频数据,并对所述音频数据进行音频分割,形成多个音频片段;
基于所述多个音频片段进行音频事件检测,得到音频事件检测结果;
根据所述音频事件检测结果及预设识别模型,对所述音频数据进行场景识别并标注。
在一些可能的实现方式中,所述对所述音频数据进行音频分割,形成多个音频片段,包括:
将所述音频数据输入预设背景声音识别模型,获得所述音频数据中的背景声音;
提取所述音频数据的波形值组成一个矩阵,并将该矩阵和所述背景声音都投影到特征空间中,获得所述音频数据的特征向量和所述背景声音的特征向量;
计算所述音频数据的特征向量和所述背景声音的特征向量的归一化距离;
根据所述归一化距离确定所述音频数据的分割点位置,根据所述分割点位置对所述音频数据进行音频分割,形成多个音频片段。
在一些可能的实现方式中,所述基于所述多个音频片段进行音频事件检测,得到音频事件检测结果,包括:
根据预设谱聚类算法,对所述多个音频片段进行音频事件检测,获得每个音频片段的音频事件检测结果;
所述音频事件检测结果包括:音频事件发生的频率、总时间长度、重要性及标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通科技股份有限公司,未经厦门快商通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010015772.8/2.html,转载请声明来源钻瓜专利网。