[发明专利]一种基于语音跟踪的全景视频录制方法及装置在审
申请号: | 202010021698.0 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111163281A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 蒋灏;李虎;赵成斌;沈宏泰;田晟浩;张小博;穆永鹏;戴玉成;孙洁 | 申请(专利权)人: | 北京中电慧声科技有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15;H04N7/18;H04N5/262;H04N5/765 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 张彩珍 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 跟踪 全景 视频 录制 方法 装置 | ||
1.一种基于语音跟踪的全景视频录制方法,其特征在于,包括如下步骤:
步骤1:采集多路音频信号和多路视频信号,将所述多路视频信号经全景视频融合拼接,形成全景视频图像;
步骤2:根据所述音频信号实时估算现场说话人的声源方向;根据所述声源方向,截取所述全景视频图像中对应位置的现场说话人特写图像,并将所述现场说话人特写图像和所述全景视频图像整合,形成全景视频输出图像;
步骤3:将所述音频信号和全景视频输出图像,通过网络上传至上位机,或直接通过监控设备输出。
2.根据权利要求1所述的基于语音跟踪的全景视频录制方法,其特征在于,步骤3中还包括:对现场说话人特写图像进行人脸识别,识别说话人身份;以及对音频信号进行识别,将语音转换成文字后进行数据存储,并对所述数据进行说话人身份标注。
3.根据权利要求1所述的基于语音跟踪的全景视频录制方法,其特征在于:所述多路音频信号是通过麦克风阵列采集的,所述多路视频信号是通过多路视频传感器采集的。
4.根据权利要求3所述的基于语音跟踪的全景视频录制方法,其特征在于:所述麦克风阵列由多个麦克风组成,其中1个麦克风位于圆心位置,其余麦克风沿圆周方向均匀分布;
所述多路视频传感器沿圆周方向均匀分布;
所述麦克风和视频传感器的数量、位置分布相互配合。
5.根据权利要求1所述的基于语音跟踪的全景视频录制方法,其特征在于,步骤2中还包括:利用自适应波束形成方法对声源方向的音频信号进行增强,消除其他方向的干扰声音。
6.根据权利要求1所述的基于语音跟踪的全景视频录制方法,其特征在于:步骤2中,所述现场说话人的声源方向是利用超分辨率谱实时估算得到的。
7.根据权利要求1所述的基于语音跟踪的全景视频录制方法,其特征在于,步骤2中还包括:判断是否存在现场说话人;当判断没有现场说话人时,则将步骤1获得的全景视频图像作为全景视频输出图像。
8.根据权利要求1所述的基于语音跟踪的全景视频录制方法,其特征在于:步骤3中,将音频信号和视频信号进行数据压缩后,通过网络上传至上位机。
9.一种基于语音跟踪的全景视频录制装置,其特征在于,包括:
壳体;
设置于壳体上的麦克风阵列,用于采集多路音频信号;
设置于壳体上的多路视频传感器,用于采集多路视频信号;以及
设置于壳体内的音频视频处理装置,包括视频处理模块,音频处理模块,视频重组模块和输出模块,其中:
视频处理模块获取多路视频传感器采集的视频信号,并进行全景融合拼接,得到全景视频图像;
音频处理模块获取麦克风阵列采集的多路音频信号,实时计算说话人的声源方向,并对声源方向的语音信号进行增强,消除其他方向的干扰声音;
视频重组模块根据所述音频处理模块输出的声源方向,从全景视频图像中截取对应位置的局部图像,并将全景视频图像与截取的局部图像整合生成新的图像;
输出模块将所述音频处理模块处理后的音频数据和所述视频重组模块生成的图像进行输出。
10.根据权利要求9所述的基于语音跟踪的全景视频录制装置,其特征在于:所述壳体上还设有灯带,灯带沿壳体圆周方向环绕设置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中电慧声科技有限公司,未经北京中电慧声科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010021698.0/1.html,转载请声明来源钻瓜专利网。