[发明专利]一种基于语音跟踪的全景视频录制方法及装置在审
申请号: | 202010021698.0 | 申请日: | 2020-01-09 |
公开(公告)号: | CN111163281A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 蒋灏;李虎;赵成斌;沈宏泰;田晟浩;张小博;穆永鹏;戴玉成;孙洁 | 申请(专利权)人: | 北京中电慧声科技有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15;H04N7/18;H04N5/262;H04N5/765 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 张彩珍 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 跟踪 全景 视频 录制 方法 装置 | ||
本发明涉及一种基于语音跟踪的全景视频录制方法及装置,采集多路音频信号和多路视频信号,将所述多路视频信号经全景视频融合拼接,形成全景视频图像;根据所述音频信号实时估算现场说话人的声源方向;根据所述声源方向,截取所述全景视频图像中对应位置的现场说话人特写图像,并将所述现场说话人特写图像和所述全景视频图像整合,形成全景视频输出图像;将所述音频信号和全景视频输出图像,通过网络上传至上位机,或直接通过监控设备输出。本发明流程简单,可有效实现全景图像与特写图像自动生成,并具有实时性。
技术领域
本发明涉及一种基于语音跟踪的全景视频录制方法及装置。
背景技术
现有技术中,全景视讯的视频会议设备多数组成复杂,对发言人的录播需要人工切换,无法实现全景图像与特写图像自动生成。与本发明最相关的现有技术是发明名称为“基于全景摄像头和麦克风阵列的会议转录系统”专利(专利公开号:CN 109474797 A),该技术方案存在的不足之处在于结构复杂,全景图像与自动特写图像生成的流程复杂,实时性较差。
发明内容
本发明的发明目的在于提供一种基于语音跟踪的全景视频录制方法及装置,能够有效实现全景图像与特写图像自动生成。
基于同一发明构思,本发明具有两个独立的技术方案:
1、一种基于语音跟踪的全景视频录制方法,其特征在于,包括如下步骤:
步骤1:采集多路音频信号和多路视频信号,将所述多路视频信号经全景视频融合拼接,形成全景视频图像;
步骤2:根据所述音频信号实时估算现场说话人的声源方向;根据所述声源方向,截取所述全景视频图像中对应位置的现场说话人特写图像,并将所述现场说话人特写图像和所述全景视频图像整合,形成全景视频输出图像;
步骤3:将所述音频信号和全景视频输出图像,通过网络上传至上位机,或直接通过监控设备输出。
进一步地,步骤3中还包括:对现场说话人特写图像进行人脸识别,识别说话人身份;以及对音频信号进行识别,将语音转换成文字后进行数据存储,并对所述数据进行说话人身份标注。
进一步地,所述多路音频信号是通过麦克风阵列采集的,所述多路视频信号是通过多路视频传感器采集的。
进一步地,所述麦克风阵列由多个麦克风组成,其中1个麦克风位于圆心位置,其余麦克风沿圆周方向均匀分布;
所述多路视频传感器沿圆周方向均匀分布;
所述麦克风和视频传感器的数量、位置分布相互配合。
进一步地,步骤2中还包括:利用自适应波束形成方法对声源方向的音频信号进行增强,消除其他方向的干扰声音。
进一步地,步骤2中,所述现场说话人的声源方向是利用超分辨率谱实时估算得到的。
进一步地,步骤2中还包括:判断是否存在现场说话人;当判断没有现场说话人时,则将步骤1获得的全景视频图像作为全景视频输出图像。
进一步地,步骤3中,将音频信号和视频信号进行数据压缩后,通过网络上传至上位机。。
2、一种基于语音跟踪的全景视频录制装置,其特征在于,包括:
壳体;
设置于壳体上的麦克风阵列,用于采集多路音频信号;
设置于壳体上的多路视频传感器,用于采集多路视频信号;以及
设置于壳体内的音频视频处理装置,包括视频处理模块,音频处理模块,视频重组模块和输出模块,其中:
视频处理模块获取多路视频传感器采集的视频信号,并进行全景融合拼接,得到全景视频图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中电慧声科技有限公司,未经北京中电慧声科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010021698.0/2.html,转载请声明来源钻瓜专利网。