[发明专利]一种多媒体采集装置和方法有效

申请号：	201210283273.2	申请日：	2012-08-09
公开（公告）号：	CN103581606B	公开（公告）日：	2018-09-07
发明（设计）人：	孙敏刚;赵照	申请（专利权）人：	北京维鲸视界科技有限公司
主分类号：	H04N7/14	分类号：	H04N7/14;H04N7/15;H04N5/232;G10L15/06
代理公司：	北京市隆安律师事务所 11323	代理人：	权鲜枝
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多媒体采集装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多媒体采集装置和方法，属于多媒体领域。装置包括：音频采集单元，包括至少四个采集通道，用于采集发言者的发出的音频信号；音频分析单元，用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析，实时定位发言者的位置信息；视频同步单元，用于根据发言者的位置信息实时调整摄像头，从而使摄像头采集含有发言者的视频信号。本发明通过至少四通道对外部音场进行检测采集，并基于语音模型对所得的音场环境中的当前发言者进行跟踪，则得出发言者的相对位置并实时调整摄像头进行音频和视频同步采集；且四个采集通道均衡设置，摄像头转动灵活，也通过多个通道扩大了音频采集的范围，从而采集立体效果的音频质量。

技术领域

本发明涉及多媒体领域，尤其涉及一种多媒体采集装置和方法。

背景技术

随着传感器技术、电子技术和信号处理技术的飞速发展，视频会议已经成为公司之间交流通讯的最佳方式。采用视频会议，可以实现与多人同时进行通讯，人们还可以面对面讲话。在全球各地的办公室和教育机构，视频会议还能够用于学习、培训和与联系人会面，不需要进行旅行。视频会议不仅能够节省电话费，而且通过取消旅行还有助于改善环境和减少业务开支中安排员工外出开会的旅差费。

目前的视频会议系统往往将往往使用PTZ摄像机和音频采集系统综合使用，由PTZ摄像机的操控人控制摄像机摆动和变焦，从而捕捉发言者的特写镜头，这样远程的与会者就能清楚地看到发言者。但毕竟需要人为操控PTZ摄像机，难免造成不便。

VCON公司的VoiceFinder是一种基于音频定位技术的个人会议系统，将音频采集装置和摄像头整合在一起，插在笔记本电脑或者PC机上即可使用，该设备采集发言者的音频信息后，通过定位发言者位置调整摄像头的朝向从而进行视频采集。但由于该装置为便携式装置，摄像头的转动角度只能在既定范围内转动，且音频采集范围也有限，造成音频采集效果很差，往往带有噪声和回音。

发明内容

本发明的实施例提供了一种多媒体采集装置和方法，通过至少四通道对外部音场进行检测采集，根据所得的音场环境对当前发言者进行跟踪，则得出发言者的相对位置并实时调整摄像头进行视频采集，从而使音频和视频同步进行采集。

本发明公开了一种多媒体采集装置，包括：

音频采集单元，包括至少四个采集通道，用于采集发言者的发出的音频信号；所述各采集通道在几何平面内均衡设置；

音频分析单元，用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析，实时定位发言者的位置信息；

视频同步单元，用于根据发言者的位置信息实时调整摄像头，从而使摄像头采集含有发言者的视频信号。

优选的，所述预置的语音模型由以下单元构建：

音频预处理单元，用于对各采集通道采集到的全体音频信号进行降噪，并对降噪后音频信号中的特征量进行量化；

音频建模单元，用于对量化后的特征量进行建模，得到语音模型。

优选的，所述音频预处理单元接收音频采集单元采集的音频信号，并将量化后的特征量发送至音频建模单元。

优选的，所述语音模型存储发言者的位移和各通道对应的音量值。

优选的，所述音频分析单元结合各采集通道对应的音量值进行分析，基于音场均衡策略在语音模型中实时确定发言者的位置信息。