[发明专利]一种多媒体采集装置和方法有效
申请号: | 201210283273.2 | 申请日: | 2012-08-09 |
公开(公告)号: | CN103581606B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 孙敏刚;赵照 | 申请(专利权)人: | 北京维鲸视界科技有限公司 |
主分类号: | H04N7/14 | 分类号: | H04N7/14;H04N7/15;H04N5/232;G10L15/06 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多媒体 采集 装置 方法 | ||
1.一种多媒体采集装置,其特征在于,包括:音频采集单元,包括至少四个采集通道,用于采集发言者的发出的音频信号;所述各采集通道在几何平面内均衡设置;音频分析单元,用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;视频同步单元,用于根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号;
所述预置的语音模型由以下单元构建:音频预处理单元,用于对各采集通道采集到的全体音频信号进行降噪,并对降噪后音频信号中的特征量进行量化;
音频建模单元,用于对量化后的特征量进行建模,得到语音模型;其中,将同一时刻采集到的各音频信号中的特征值和发言者的相对位置信息进行结构话存储;
所述音频分析单元结合各采集通道对应的音量值进行分析,基于音场均衡策略在语音模型中实时确定发言者的位置信息;
其中,提取发言者的位置信息对应的极坐标系中的偏转角和极轴长,根据所述偏转角和极轴长将在PTZ平台上的摄像头实时进行调整,调整摄像头的偏转角度和焦距,从而使摄像头清晰地摄取发言者对应的视频信号;发言者对应的位置信息变化达到一定阈值时才进行摄像头的调整。
2.根据权利要求1所述的装置,其特征在于:所述音频预处理单元接收音频采集单元采集的音频信号,并将量化后的特征量发送至音频建模单元。
3.根据权利要求1所述的装置,其特征在于:所述语音模型存储发言者的位移和各通道对应的音量值。
4.根据权利要求1所述的装置,其特征在于:所述音频采集单元中的各采集通道以摄像头为圆心,均匀在圆周上进行设置。
5.一种多媒体采集方法,其特征在于,包括至少四个采集通道,在几何平面内均衡设置,还包括如下步骤:各采集通道分别采集发言者的发出的音频信号;将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号;
所述预置的语音模型构建时,对各采集通道采集到的全体音频信号进行降噪,并对降噪后音频信号中的特征量进行量化;对量化后的特征量进行建模,得到语音模型;其中,将同一时刻采集到的各音频信号中的特征值和发言者的相对位置信息进行结构话存储;
所述音频分析单元结合各采集通道对应的音量值进行分析,基于音场均衡策略在语音模型中实时确定发言者的位置信息;
其中,提取发言者的位置信息对应的极坐标系中的偏转角和极轴长,根据所述偏转角和极轴长将在PTZ平台上的摄像头实时进行调整,调整摄像头的偏转角度和焦距,从而使摄像头清晰地摄取发言者对应的视频信号;发言者对应的位置信息变化达到一定阈值时才进行摄像头的调整。
6.根据权利要求5所述的方法,其特征在于:所述语音模型存储发言者的位移和各通道对应的音量值。
7.根据权利要求5所述的方法,其特征在于:所述各采集通道以摄像头为圆心,均匀在圆周上进行设置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京维鲸视界科技有限公司,未经北京维鲸视界科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210283273.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带TDS检测的水杯及判断水杯内饮料的方法
- 下一篇:保温容器