[发明专利]一种用于视频行人重识别的视频序列编码与解码方法有效
申请号: | 202011378786.2 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112418127B | 公开(公告)日: | 2022-05-03 |
发明(设计)人: | 潘啸;罗浩;姜伟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V10/44;G06V10/82;G06V10/80;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 视频 行人 识别 序列 编码 解码 方法 | ||
1.一种用于视频行人重识别的视频序列编码与解码方法,其特征在于,包括以下步骤:
(1)搭建神经网络:
(11)搭建视频特征提取模块:
(111)将第一卷积网络最后一次降采样的步长设置为1;
(112)将第一卷积网络后面依次加上时间平均池化模块、第一空间平均池化模块、第一批标准化模块;
(12)搭建生成器:生成器包括多层上采样卷积和一个卷积层,上采样的次数与第一卷积网络降采样的次数相同,所述卷积层的输入和输出特征图大小相同;
(13)搭建图像特征提取模块:
(131)将第二卷积网络最后一次降采样的步长设置为1;
(132)在第二卷积网络后依次接第二空间平均池化模块、第二批标准化模块;
(2)取视频序列中K帧,取K帧之一为标签帧,用于训练步骤(1)搭建的神经网络;视频特征提取模块的输入为视频序列的K帧,时间平均池化模块的输出为视频特征,视频特征再经过第一空间平均池化模块、第一批标准化模块后输出;生成器的输入为时间平均池化模块输出的视频特征和标签帧在第一卷积网络的输出,输出为关键帧;图像特征提取模块的输入为关键帧,输出为关键帧中的视频特征;
(3)取待识别视频序列中的K帧,指定一个为标签帧,将K帧视频序列输入步骤(2)训练好的视频特征提取模块和生成器,保存生成器输出的关键帧;在需要检索时,将保存的关键帧输入步骤(2)训练好的图像特征提取模块恢复关键帧中的视频特征,用于行人检索。
2.如权利要求1所述用于视频行人重识别的视频序列编码与解码方法,其特征在于,所述步骤(2)包括以下子步骤:
(21)从视频序列中随机挑选K张图片输入视频特征提取模块;
(22)在选出的K张图片中任选一帧作为标签帧,并将视频特征与标签帧特征融合后送入生成器进行上采样,输出生成的关键帧,并使用图像重建损失函数Lirec引导关键帧的重建;
(23)将步骤(22)生成的关键帧送入图像特征提取模块;在图像特征提取模块中,批标准化前后的特征分别为fibfr和fiaft;用fibfr计算三元组损失函数Litri,fiaft送入全连接层计算Softmax分类损失Liid;
(24)视频特征提取模块中的时间平均池化模块输出的最后一个降采样层的视频特征送入第一空间平均池化模块,输出特征fvbfr;再送入第一批标准化模块后输出特征fvaft;甩fvbfr计算三元组损失函数Lvtri,fvaft送入全连接层计算Softmax分类损失函数Lvid;
(25)将步骤(23)批标准化后的特征fiaft和步骤(24)视频特征提取模块提取的批标准化之后的视频特征fvaft使用L1损失进行特征重建损失约束,将特征重建损失函数记为Lfrec;
(26)对视频特征提取模块和图像特征提取模块同时使用分类损失函数Lvid和三元组损失函数Lvtri进行判别能力的训练,和图像重建损失函数Lirec以及特征重建损失函数Lfrec同步进行;最后根据总的损失函数Lloss=Lvtri+Lvid+Litri+Liid+Lirec+Lfrec训练整个神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011378786.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水库安全监测预警装置
- 下一篇:一种页面适配方法、系统及设备