[发明专利]一种多媒体采集装置和方法有效
申请号: | 201210283273.2 | 申请日: | 2012-08-09 |
公开(公告)号: | CN103581606B | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 孙敏刚;赵照 | 申请(专利权)人: | 北京维鲸视界科技有限公司 |
主分类号: | H04N7/14 | 分类号: | H04N7/14;H04N7/15;H04N5/232;G10L15/06 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种多媒体采集装置和方法,属于多媒体领域。装置包括:音频采集单元,包括至少四个采集通道,用于采集发言者的发出的音频信号;音频分析单元,用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;视频同步单元,用于根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号。本发明通过至少四通道对外部音场进行检测采集,并基于语音模型对所得的音场环境中的当前发言者进行跟踪,则得出发言者的相对位置并实时调整摄像头进行音频和视频同步采集;且四个采集通道均衡设置,摄像头转动灵活,也通过多个通道扩大了音频采集的范围,从而采集立体效果的音频质量。 | ||
搜索关键词: | 一种 多媒体 采集 装置 方法 | ||
【主权项】:
1.一种多媒体采集装置,其特征在于,包括:音频采集单元,包括至少四个采集通道,用于采集发言者的发出的音频信号;所述各采集通道在几何平面内均衡设置;音频分析单元,用于将采集到的发言者的音频信号中的特征量在预置的语音模型中进行匹配分析,实时定位发言者的位置信息;视频同步单元,用于根据发言者的位置信息实时调整摄像头,从而使摄像头采集含有发言者的视频信号;所述预置的语音模型由以下单元构建:音频预处理单元,用于对各采集通道采集到的全体音频信号进行降噪,并对降噪后音频信号中的特征量进行量化;音频建模单元,用于对量化后的特征量进行建模,得到语音模型;其中,将同一时刻采集到的各音频信号中的特征值和发言者的相对位置信息进行结构话存储;所述音频分析单元结合各采集通道对应的音量值进行分析,基于音场均衡策略在语音模型中实时确定发言者的位置信息;其中,提取发言者的位置信息对应的极坐标系中的偏转角和极轴长,根据所述偏转角和极轴长将在PTZ平台上的摄像头实时进行调整,调整摄像头的偏转角度和焦距,从而使摄像头清晰地摄取发言者对应的视频信号;发言者对应的位置信息变化达到一定阈值时才进行摄像头的调整。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京维鲸视界科技有限公司,未经北京维鲸视界科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210283273.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种带TDS检测的水杯及判断水杯内饮料的方法
- 下一篇:保温容器