[发明专利]一种声视频融合监控方法在审
申请号: | 201310231183.3 | 申请日: | 2013-06-09 |
公开(公告)号: | CN104243894A | 公开(公告)日: | 2014-12-24 |
发明(设计)人: | 陈孝良;李晓东 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | H04N7/18 | 分类号: | H04N7/18;H04N5/232;H04N5/262;G06F17/30 |
代理公司: | 北京法思腾知识产权代理有限公司 11318 | 代理人: | 杨小蓉;杨青 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 融合 监控 方法 | ||
技术领域
本发明涉及监控领域,特别涉及一种声视频融合监控方法。
背景技术
视频监控是监控领域中的一种主要手段。传统的视频监控主要基于低分辨率单眼视频传感器,面对日益复杂的动态场景和智能实时预警的要求,其技术存在两大挑战:第一,视频传感器存在视角较窄、易受遮挡的问题,容易受到复杂气象条件及光线强度的影响,例如风雨雪雾天气及昼夜变化;第二,视频监控基于连续大量的视频数据流进行检测、定位与跟踪的算法复杂度较高,尤其是基于高清视频实现智能分析的实时性较差,成本与能耗也是问题,这限制了高清视频传感器在监控领域的应用。
为了应对这些挑战,国内外针对视频监控的智能性和实时性开展了广泛研究,其中一种思路是基于视频高级处理算法来扩展和深化视频的智能分析技术,全景、立体摄像和3-D建模等方法在一定程度上弥补了单眼视频传感器视角较窄的缺陷;另外一种思路是基于多传感器数据融合理论,利用来自同类或者异类多传感器提取的特征实现面向目标的智能化分析。近年来在视频监控领域已经开展了多摄像头联动以及融合GPS、雷达、激光、红外等异类信号的探索。
但是声音作为自然界一个重要信号,至今还没有在监控领域引起重视,主要受限于传声器阵列的技术滞后。随着阵列和传感技术的发展,基于传声器阵列的声探测研究有了较大的进展,已经在医疗监护、消费电子、边界防护、工业控制等领域开展了应用示范。由于基于传声器阵列的声探测方法增强了对离散目标和短时活动的检测、定位和跟踪能力,具有低能耗、全天候、无遮挡、无盲区和实时性好的特点,非常适合在监控领域的应用。但是由于监控场景环境复杂、背景嘈杂,现有传声器阵列定位技术不能直接应用于监控场景分析。另外由于声探测获取的信息量相对较少,无法仅凭传声器阵列独立满足监控领域的需求。目前还没有一套适应于监控领域的声视频融合监控的完整技术方案。
发明内容
本发明的目的在于克服单一视频监控视野较窄、易受环境影响、获取信息量少等缺陷,从而提供一种基于传声器阵列与云台摄像机的声视频融合监控方法。
为了实现上述目的,本发明提供了一种声视频融合监控方法,包括:
步骤1)、采集声频与视频信号,对所采集的信号进行调理;
步骤2)、对步骤1)所得到的、经过调理的信号做协同预处理;所述协同预处理包括对信号做压缩、滤波、去噪与增强;
步骤3)、对步骤2)所得到的信号是否同时包含声频信号与视频信号加以判断,当同时包含两种信号时,执行步骤4),若仅包含声频信号,则执行步骤5);
步骤4)、对声频信号与视频信号做融合分析,根据融合分析的结果查找出所述声视频信号中所包含的目标信息,然后执行步骤6);
步骤5)、对声频信号做独立的分析与处理,得到所述声频信号中所包含的目标信息,然后执行步骤6);
步骤6)、根据步骤4)或步骤5)所得到的目标信息决定是否需要对摄像机的姿态进行调整,若需要调整,调整摄像机的姿态,然后重新执行步骤1);其中,所述对摄像机的姿态进行调整包括调焦、补光、调整角度。
上述技术方案中,还包括:
步骤7)、对当前的声视频信号进行模式识别,以获取目标事件的包括关键词、时间、方位、类别、状态在内的语义信息;所述模式识别包括行为理解、判别控制和状态评估,其中,所述行为理解通过运动特征的提取,获取目标事件的关键词;所述判别控制根据行为理解的结果,进一步获取事件的时间、方位等信息,与对应的关键词阈值相比较,检测判断目标事件的类别;所述状态评估根据判别目标事件的类别,依据类别的预设特征值估计目标事件的重要度,根据估计结果给目标事件设定警告等级;
步骤8)、从经过模式识别的声视频信号中抓取关键信息和核心片段,将多个片段拼接和编辑形成一个反映监控信息的语义情报,将这些语义情报压缩后编码,最后通过网络实现传输。
上述技术方案中,所述的步骤4)包括:
步骤4-1)、从背景噪声数据库中抽取背景噪声数据,实现背景建模;其中,所述背景噪声数据库用于存储多种气象条件下、多种典型场景的背景噪声;所述气象条件包括风、雨、雪、雾在内的特殊气象条件,所述典型场景包括呼救、鸣笛、碰撞、爆炸、鸣枪、低空飞行、人群聚集;
步骤4-2)、从目标特征数据库中抽取多种目标特征信息,将这些目标特征信息与步骤4-1)中所建立的背景噪声模型相结合,得到虚拟目标特征;其中,所述目标特征数据库用于存储目标的特征信息,所述特征包括声频或视频信号的基本特征、变换域特征、统计特征、运动特征,以及这些特征在时间、空间、谱、相位等方面的信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310231183.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:安全下车的辅助影像提供方法
- 下一篇:互感器状态检测电路