[发明专利]基于深度学习的视频会议场景人形检测方法在审

专利信息
申请号: 202111315469.0 申请日: 2021-11-08
公开(公告)号: CN113989850A 公开(公告)日: 2022-01-28
发明(设计)人: 丁帆;任永忠;梅宇青;王沛;曾德军;陶宇 申请(专利权)人: 深圳市音络科技有限公司
主分类号: G06V40/10 分类号: G06V40/10;G06K9/62;G06N3/04;G06N3/08
代理公司: 南京创略知识产权代理事务所(普通合伙) 32358 代理人: 王丹
地址: 518000 广东省深圳市宝安区新安街道灵芝园社区22区勤诚达乐园*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 视频会议 场景 人形 检测 方法
【权利要求书】:

1.一种基于深度学习的视频会议场景人形检测方法,其特征在于,包括如下步骤:

步骤(A)、使用摄像机从会议场景中获取矩形全景图像,并对其进行矫正;

步骤(B)、将矫正后的矩形全景图像拼接映射成长宽相等的方形图像,并作归一化预处理和数据增强操作,随后进行归一化处理,其中归一化预处理和数据增强操作,具体为随机翻转、区域裁剪和区域掩盖重组;

步骤(C)、构建基于残差网络-特征金字塔网络的深度学习模型作为基线模型,输入步骤(B)中处理完成的图像,输出图像中所有人体的矩形位置边框;

步骤(D)、在步骤(C)中基线模型的基础上引入边界框回归网络,计算出人体目标四周边框位置以及置信度和中心加权;

步骤(E)、引入自适应焦点损失训练模型,根据训练后的人形检测模型输入步骤(B)中获取的会议场景图像,检测出对应与会者的位置。

2.根据权利要求1所述的一种基于深度学习的视频会议场景人形检测方法,其特征在于,步骤(A)、使用摄像机从会议场景中获取矩形全景图像,并对其进行矫正,包括以下步骤,

步骤(A1)、将带有180度鱼眼镜头的摄像头设备置于会议室正中心,拍摄出带有畸变的会议室全景图像;

步骤(A2)、利用OpenCV棋盘格标定法对采集到的会议室全景图像进行矫正分析,使用鱼眼摄像头拍摄固定大小的棋盘格图片,将图像做二值化操作后,经过对图像的腐蚀和膨胀操作,遍历每一个方格的轮廓并获取所有小方格的角点,根据这些角点的畸变情况,对镜头参数进行标定,获取相机镜头参数,输入待矫正图像,通过透镜畸变前后的坐标对应关系进行坐标变换,得到正常非畸变的矩形全景照片。

3.根据权利要求1所述的一种基于深度学习的视频会议场景人形检测方法,其特征在于,步骤(B),将矫正后的矩形全景图像拼接映射成长宽相等的方形图像,并作归一化预处理和数据增强,随后进行归一化处理,其中归一化预处理和数据增强操作,具体为随机翻转、区域裁剪和区域掩盖重组,包括以下步骤,

步骤(B1)、取步骤(A)中摄像机矫正后输出的边长为3000×1000的包含会议室中360°环形场景信息的矩形全景图像,纵向裁剪边长为2000×1000的两个原始矩形图像,再将其上下拼接成边长为2000×2000的方形图像,用于适配深度学习检测器的输入形状比例;

步骤(B2)、将拼接后的方形图像与原矩形图像位置一一映射,方形图像的上半部分直接映射为原矩形图像的x∈[0,2000)位置,下半部分由原图的x∈[0,500),x∈[1500,3000)多段拼接而成的边长为2000×1000的图像,用于避免全景图像被割裂;

步骤(B3)、矫正后的图像映射到原图位置之后,进行非极大值抑制,用于避免步骤(B1)拼接后图像的重复检测;

步骤(B4)、对拼接后的方形图像进行数据增强,在原图的基础上进行上下左右随机翻转,而后对包含人体目标的部分图像区域进行随机裁剪,对不包含人体目标的图像区域进行涂抹或马赛克方式掩盖;

步骤(B5)、对进行数据增强后的方形图像做归一化处理,将每个像素值变为(0,1)区间的小数,再将输入图像压缩至边长为512×512的大小,作为模型的输入图像。

4.根据权利要求1所述的一种基于深度学习的视频会议场景人形检测方法,其特征在于,步骤(C),构建基于残差网络-特征金字塔网络的深度学习模型作为基线模型,输入步骤(B)中处理完成的图像,输出图像中所有人体的矩形位置边框,包括以下步骤,

步骤(C1)、输入步骤(B)中处理完成的图像,而后构建基线模型,依次连接残差卷积网络和特征金字塔网络;

步骤(C2)、将用于学习原始图像空间语义特征的残差卷积网络作为主干网络,采用特征金字塔网络实现图像的多尺度特征融合,对特征从不同的尺度大小进行建模;

步骤(C3)、将全连接层通过浅层卷积网络作为检测头,获取目标人形的位置,使用k-means聚类算法获取适配数据集中人形的锚框,而后输出图像中所有人体的矩形位置边框。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市音络科技有限公司,未经深圳市音络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111315469.0/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top