[发明专利]一种基于音频的事件检测方法和系统在审
申请号: | 201910886729.6 | 申请日: | 2019-09-19 |
公开(公告)号: | CN111863029A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 李武波;张睿雄 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30;G10L25/12;G10L25/24 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 袁春晓 |
地址: | 100193 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 音频 事件 检测 方法 系统 | ||
1.一种基于音频的事件检测方法,其特征在于,包括:
获取一段音频信号;
将所述音频信号切割成多个音频片段;
对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件。
2.如权利要求1所述的方法,其特征在于,所述对所述多个音频片段进行处理,以确定所述音频信号中是否包含目标事件包括:
确定所述多个音频片段的一个或多个音频片段中是否包含目标事件;
联合所述一个或多个音频片段中是否包含目标事件的确定结果,确定所述音频信号中是否包含所述目标事件。
3.如权利要求2所述的方法,其特征在于,所述联合所述一个或多个音频片段中是否包含目标事件的确定结果,确定所述音频信号中是否包含所述目标事件包括:
若任一所述音频片段中包含目标事件,则确定所述音频信号中包含所述目标事件;
若所述音频片段中全部都未包含目标事件,则确定所述音频信号中未包含所述目标事件。
4.如权利要求1所述的方法,其特征在于,所述将所述音频信号切割成多个音频片段包括将所述音频信号在时域上切割成多个音频片段。
5.如权利要求1所述的方法,其特征在于,所述目标事件包括冲突、威胁、恐吓、敲诈、勒索、抢劫、盗窃、猥亵、性侵犯、性骚扰、强奸、车祸中至少一个。
6.如权利要求2所述的方法,其特征在于,所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件包括:
对于音频片段:
提取音频片段的特征信息;
基于机器学习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值。
7.如权利要求6所述的方法,其特征在于,所述确定所述多个音频片段的一个或多个音频片段中是否包含目标事件还包括:
对于音频片段:
获取设定阈值;
判断所述音频片段中包含目标事件的概率值是否大于所述设定阈值:
若是,则确定所述音频片段中包含目标事件。
8.如权利要求6所述的方法,其特征在于,所述特征信息包括以下特征中的一种或多种的组合:F-bank特征、线性预测系数、感知线性预测系数、线性预测倒谱系数、梅尔频率倒谱系数、Tandem特征以及Bottleneck特征。
9.如权利要求6所述的方法,其特征在于,所述机器学习模型包括神经网络模型;
所述基于机器学习模型处理所述特征信息,预测所述音频片段中包含目标事件的概率值包括:
机器学习模型基于当前音频片段的特征信息以及当前音频片段之前的至少一个音频片段的特征信息确定所述当前音频片段中包含目标事件的概率值。
10.如权利要求9所述的方法,其特征在于,所述神经网络模型包括卷积循环神经网络、卷积神经网络、深度卷积神经网络、循环神经网络以及长短期记忆模型中至少一个。
11.如权利要求9所述的方法,其特征在于,所述神经网络模型中具有残差连接;所述残差连接用于将神经网络模型中某一层的输出数据融合到之后层的输入数据中。
12.如权利要求6所述的方法,其特征在于,所述机器学习模型通过以下方法获得:
获取音频信号样本;其中,包含目标事件的音频信号样本标记为正样本,未包含目标事件的音频信号样本标记为负样本;
将音频信号样本切割成多个音频片段;
基于所述多个音频片段及标记结果训练初始模型得到所述机器学习模型。
13.如权利要求1所述的方法,其特征在于,所述音频信号通过音频采集设备实时获取;所述方法还包括:
响应于所述音频信号包含所述目标事件,对与所述音频信号相关的场景实施干预措施。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910886729.6/1.html,转载请声明来源钻瓜专利网。