[发明专利]一种固定摄像机下的运动目标位置预测方法及装置有效
申请号: | 202011495516.X | 申请日: | 2020-12-17 |
公开(公告)号: | CN112529940B | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 刘锋;俞益洲;李一鸣;乔昕 | 申请(专利权)人: | 北京深睿博联科技有限责任公司;杭州深睿博联科技有限公司 |
主分类号: | G06T7/246 | 分类号: | G06T7/246;G06T7/73;G06N3/04;G06N3/08 |
代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 路远 |
地址: | 102209 北京市昌平区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 固定 摄像机 运动 目标 位置 预测 方法 装置 | ||
1.一种固定摄像机下的运动目标位置预测方法,其特征在于,包括:
获取待预测数据,将所述待预测数据送入用于目标位置预测的神经网络模型,利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测,其中,所述待预测数据包括视频数据和待预测时间间隔t,所述视频数据包括K帧RGB 3通道的图片;
其中,所述利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测包括:
将所述K帧RGB 3通道的图片和所述待预测时间间隔t组合为4通道的K×H×W大小的立体,其中,H为图片的长,W为图片的宽;
将所述4通道的K×H×W大小的立体送入3D深度卷积残差网络,提取特征,输出不同尺度的特征图;
采用特征金字塔对不同尺度的特征进行融合,得到2D多通道的特征图;
利用所述2D多通道的特征图,对待预测层目标位置进行预测,得到目标位置预测结果。
2.根据权利要求1所述的方法,其特征在于,还包括:训练所述用于目标位置预测的神经网络模型;
所述训练所述用于目标位置预测的神经网络模型包括:
获取标注数据,其中,所述标注数据包括多段视频和每段所述视频每一帧感兴趣目标的编号及位置,其中所述位置包括边界框;
对所述标注数据进行抽取,生成训练数据,所述训练数据包括N对数据单元,每一对所述数据单元包括一个输入视频片段和多组与所述输入视频片段对应的标注;
利用所述训练数据训练所述用于目标位置预测的神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述输入视频片段通过以下方式生成:
在原视频V按预设方式选取开始点t1和序列长度K后,生成所述输入视频片段{V[t1-K],…,V[t1-1],V[t1]}。
4.根据权利要求3所述的方法,其特征在于,所述标注通过如下方式生成:
对每个待预测时间间隔t∈{1,4,8,16,32},找到视频t1+t时刻的感兴趣目标的标注,获取所有目标的位置,并根据目标的编号判定t1时刻出现的每个目标是否出仍然在视频中,移除新出现目标的位置,得到之前视频中的目标在t时刻后所有感兴趣目标的位置。
5.根据权利要求2所述的方法,其特征在于,所述利用所述训练数据训练所述用于目标位置预测的神经网络模型包括:
利用模型预测与真实值的差异作为监督信号,采用梯度下降的方法进行优化。
6.一种固定摄像机下的运动目标位置预测装置,其特征在于,包括:
获取模块,用于获取待预测数据;
预测模块,用于将所述待预测数据送入用于目标位置预测的神经网络模型,利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测,其中,所述待预测数据包括视频数据和待预测时间间隔t,所述视频数据包括K帧RGB 3通道的图片;
其中,所述预测模块通过如下方式利用所述用于目标位置预测的神经网络模型对所述待预测数据进行预测:
所述预测模块,具体用于将所述K帧RGB 3通道的图片和所述待预测时间间隔t组合为4通道的K×H×W大小的立体,其中,H为图片的长,W为图片的宽;将所述4通道的K×H×W大小的立体送入3D深度卷积残差网络,提取特征,输出不同尺度的特征图;采用特征金字塔对不同尺度的特征进行融合,得到2D多通道的特征图;利用所述2D多通道的特征图,对待预测层目标位置进行预测,得到目标位置预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京深睿博联科技有限责任公司;杭州深睿博联科技有限公司,未经北京深睿博联科技有限责任公司;杭州深睿博联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011495516.X/1.html,转载请声明来源钻瓜专利网。