[发明专利]基于深度学习的视频会议场景人形检测方法在审
申请号: | 202111315469.0 | 申请日: | 2021-11-08 |
公开(公告)号: | CN113989850A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 丁帆;任永忠;梅宇青;王沛;曾德军;陶宇 | 申请(专利权)人: | 深圳市音络科技有限公司 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京创略知识产权代理事务所(普通合伙) 32358 | 代理人: | 王丹 |
地址: | 518000 广东省深圳市宝安区新安街道灵芝园社区22区勤诚达乐园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 视频会议 场景 人形 检测 方法 | ||
本发明公开了一种基于深度学习的视频会议场景人形检测方法,用于在视频会议场景中提取全景图像并检测各个人员在图像中的位置,有助于实现局部画面聚焦、辅助语音增强等;该方法使用摄像机从会议场景中采集原始全景图像并矫正;将矫正后的矩形全景图像拼接映射成长宽相等的方形图像,并作归一化预处理和数据增强;构建基于残差网络‑特征金字塔网络的深度学习模型;建立边界框回归网络,同时计算出人体目标四周边框位置以及置信度和中心加权;使用自适应焦点损失来训练模型,输入会议场景图像进行训练。本发明通过边界回归、中心加权和自适应焦点损失来引导模型适应特殊场景中的人体目标,从而提高密集人员会议场景下检测的准确率、召回率,具有良好的应用前景。
技术领域
本发明涉及机器视觉领域,具体设计一种基于深度学习的视频会议场景人形检测方法。
背景技术
视频会议中的人形检测常用来实现说话人聚焦、辅助语音定向增强等功能。但是,在复杂的会议室场景中,由于参会人数多、座位密集、光线不均衡、人员移动随机等因素的影响,常规目标检测算法在此应用场景下的性能大幅下降。同时,会议室中所使用的摄像头通常是超广角或全景摄像头,画幅较广,单个人体目标在画面中的占比小,可利用的特征有限。此外,会议室中的人员往往是坐姿,且身体会被桌椅、电脑等会议设施部分遮挡,可提供的有效信息更加匮乏。因此,视频会议场景下的人形检测任务成为一种普遍的难题。
传统的人形检测算法,往往采用手工设计算子来提取一些特征来进行分析。ViolaJones检测器采用滑动窗口查看图像中所有可能的位置和比例,检查目标是否存在窗口之中。这种方法结合了“积分图像”、“特征选择”和“检测级联”三种重要技术,大大提高了检测速度。方向梯度直方图(HOG)特征描述符也曾被用来解决行人检测问题,其可以用来平衡特征不变性(包括平移、尺度、光照等)和非线性(区分不同对象类别)。DPM算法在HOG算法的基础上进行改进和延伸,由一个主过滤器和多个辅过滤器组成,通过硬负挖掘,边框回归和上下文启动技术改进检测精度。作为最优的传统检测算法,DPM方法运算速度快,能够适应物体形变,但它无法适应大幅度的旋转,因此稳定性差。
近年来快速发展的深度学习算法在检测领域也有着广泛应用。基于深度学习方法的目标检测克服了以往传统算法依赖于手工设计的特征的缺点。目标检测目前有单阶段和两阶段两种,两阶段指的是检测算法需要分两步完成,首先需要获取候选区域,然后进行分类,比如R-CNN系列;与之相对的是单阶段检测,不需要单独寻找候选区域,典型的有SSD和YOLO系列等。对于上述两种方式,基于候选区域的两阶段方法在检测准确率和定位精度上占优,基于端到端的单阶段算法速度占优。然而这些算法往往都是解决通用的多类别目标检测,且在物体特征丰富、目标较大且分布稀疏、光照一致的情况下,才能取得较好的效果。由于现实的复杂性,实际会议室场景很可能与通用训练集存在较大偏差,虽然可以进行自建数据集来弥补一些不足,但是通用深度学习检测模型在密集检测、小目标检测、被遮挡人体的捕捉等方面,始终是存在不足的。
因此,如何解决会议室中人体目标密集、光照不均匀、画幅广目标小、不规则物体遮挡等问题,是提升视频会议场景下人形检测效果的关键,对于提升人形检测效果、提高视频会议通话质量和参会体验,有着重要的研究意义。
发明内容
本发明的目的是解决视频会议场景人形检测任务中人体目标密集、光照不均匀、画幅广、目标小、不规则物体遮挡等问题,从而提升检测算法性能,提高检测准确率和召回率,以及检测的IOU精度等指标。本发明的种基于深度学习的视频会议场景人形检测模型,使用边界框回归网络,同时计算出人体目标四周边框位置以及置信度和中心加权,从而更好地使用排列密集的人体目标,避免了漏检测和重复检测;同时引入自适应焦点损失来训练模型,用来解决样本不均衡问题,主要包括正负样本和难易样本是否均衡问题,最终更好的适配人形检测场景,大幅提升了检测性能,方法巧妙新颖,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
基于深度学习的视频会议场景人形检测方法,包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市音络科技有限公司,未经深圳市音络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111315469.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置的驱动方法、显示装置
- 下一篇:一种高温导热油循环泵及其使用方法