[发明专利]一种基于音视频耦合的鸣笛车辆定位方法及系统在审
申请号: | 202211445647.6 | 申请日: | 2022-11-18 |
公开(公告)号: | CN115825869A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 蔡铭;王梓润;施一川;叶碧宇;陈燕菲;谭景俊 | 申请(专利权)人: | 中山大学 |
主分类号: | G01S5/22 | 分类号: | G01S5/22;G10L25/51;G10L25/03;G10L25/09;G10L25/24;G10L25/30;G10L21/0208;G06T7/70;G06N3/08;G06T7/246;G06N3/0464 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁嘉琦 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视频 耦合 鸣笛 车辆 定位 方法 系统 | ||
本发明公开了一种基于音视频耦合的鸣笛车辆定位方法及系统,方法包括:首先获取待分析音频数据和待分析视频数据;接着提取所述待分析音频数据的时域特征和频域特征,根据所述时域特征和所述频域特征识别得到鸣笛声的音频片段;根据所述鸣笛声的音频片段确定鸣笛的声源方向;然后根据所述待分析视频数据确定鸣笛车辆位置;最后根据所述声源方向和所述鸣笛车辆位置,确定鸣笛车辆信息。本发明的成本低、计算量小且准确率高,可广泛应用于计算机技术领域。
技术领域
本发明涉及计算机技术领域,尤其是一种基于音视频耦合的鸣笛车辆定位方法及系统。
背景技术
近年来,城市交通噪声污染问题日益凸显,汽车鸣笛问题呈现泛滥之势。违章鸣笛所带来的噪声污染会影响到人们生活质量的提高,尤其在特殊场所比如学校、居民区、医院等区域,有效遏制汽车违章鸣笛变得尤为重要。目前,噪声污染管控已成为我国环保部门的重点任务之一,相关政策明确规定禁止机动车在禁鸣路段鸣笛,越来越多的城市也将违法鸣笛纳入管理常态。但汽车鸣笛噪声较强的移动性和实时性给交通噪声执法监管带来很大困难。
实现车辆鸣笛车辆识别定位系统需要解决的关键问题是鸣笛声的识别与鸣笛声的定位。其中,鸣笛声的识别涉及声音识别技术,鸣笛声的定位涉及声源定位技术。
当前主流的声音识别技术是通过从目标声音中获取声音特征并对其进行分析,然后从多类别声音中分辨和提取出目标声源。对鸣笛声的提取本质上一种分类问题,国内外针对声音的分类和识别技术的研究方法也是多种多样,一些常用的分类器包括:神经网络,隐马尔可夫模型,支持向量机,高斯混合模型等。其中神经网络是近年较为热门的方式,这种方法主要通过模拟人脑的神经系统来实现对复杂信息的处理。近些年,来神经网络已在众多领域得到了广泛的运用,它能自行提取输入数据(音频时序数据)中深层次,高语义的特征,相较于普通模板匹配的方法,神经网络的方法往往能获得更高的分类准确率,但针对不同的问题,我们仍需选择合适的特征作为网络输入,应用于特定的网络结构,并对网络进行调整以及对所选特征进行组合优化,才能使神经网络达到最好的性能。目前声音识别技术研究领域主要存在的难点有:各种声源特征如何进行组合选取;多种复杂模糊的声音样本如何匹配;声音受到环境影响导致测量误差如何减少;如何在有限的算力下尽可能提升声音识别的准确度。
这里的声源定位技术指的是基于麦克风阵列声源定位技术,即使用麦克风阵列,利用多个麦克风在空间中的不同位点对声信号进行测量。由于声信号到达各麦克风的时间有不同程度的延迟,利用算法对测量到的多通道声信号进行处理,由此获得声源点相对于麦克风的到达方向(包括方位角、俯仰角)和距离等。声源定位中需要考虑的因素有定位的精度和算法的实时性,同时这也是当前研究的重点和难点。传统的基于麦克风阵列的声源定位方法大致基于以下三种:基于波束形成器、基于高分辨谱估计、基于时延差(TDOA)。基于深度学习的声源定位方法则是通过对大量已知数据的学习,训练模型来描述声源位置和阵列信号特征之间的映射关系。传统声源定位方法是对接收信号进行处理,估计声源的位置信息。其中,基于TDOA的方法和基于可控波束形成的方法研究较多。然而,传统定位算法容易受到实际环境中存在的混响,噪声等影响(经典的波束形成方法无法克服运动噪声存在的多普勒效应)且传统定位算法的频谱分析对系统计算量需求较大,难以满足系统的实时性要求。相比之下,基于深度学习的声源定位算法,通过对大量数据的学习得到环境的先验信息,能够提升系统的鲁棒性,但仍需传统处理方法进行特征提取,且存在着模型选择,数据集难以获取等问题。
现有的技术一般直接采用声学摄像头直接耦合视频的方式进行鸣笛车辆识别和执法,这种成本高,处理运算要求高,且不易维护。现有技术的缺点:
1、成本高。现有技术直接采用声学摄像头直接耦合视频的方式进行鸣笛车辆识别。声学摄像头一般采用30个以上的麦克风,完成极高精度的声源定位,但是初期构建成本极高,且在鸣笛声识别中不需要使用到这么高精度的设备。因此,我们采用成本相对现有方案要低很多的线性麦克风阵列给出一个低成本方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211445647.6/2.html,转载请声明来源钻瓜专利网。