[发明专利]一种基于深度多索引哈希的行人重识别方法有效
申请号: | 201910166071.1 | 申请日: | 2019-03-06 |
公开(公告)号: | CN109919084B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 李武军;李明威;蒋庆远 | 申请(专利权)人: | 南京大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/764;G06V10/82;G06N3/0464;G06N3/084 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 孙承尧 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 索引 行人 识别 方法 | ||
1.一种基于深度多索引哈希的行人重识别方法,其特征在于,该方法包括以下的步骤:
1)基于行人区域检测技术,从原始视频数据中构造行人图片训练集;
2)基于行人图片训练集,构建并训练多粒度网络模型,得到哈希函数以及训练集图片对应的实值特征和哈希编码;
将行人图片作为多粒度网络模型的输入,学习行人图片的实值特征表示和哈希编码;多粒度网络模型以ResNet-50作为主干,包括五层卷积神经网络,一层全局池化层,一层维度压缩层,一层哈希层,其中第五层卷积神经网络将原始的ResNet-50划分为:全局分支、上下身分支、上中下身分支;
在训练和测试的过程中将三个分支的输出进行合并从而得到行人图片的实值特征表示,这样的特征表示蕴含了多粒度的行人信息;对于每一个分支,在特征表示层后添加一层全连接层作为哈希层,哈希层的维度对应于哈希编码的长度;在多粒度网络模型的训练过程中,使用归一化指数函数损失为行人图片的实值特征表示建模,使用三元组损失为行人图片的哈希编码建模,使用多索引查询敏感损失来为检索进行加速;在求解时,使用梯度反向传播优化深度网络的参数;
多粒度网络模型的目标函数由三部分组成,对于第i个输入图片xi,令{fi(1),fi(2),fi(3)}表示多粒度网络模型输出的实值特征表示,令{di,gi,hi}表示对应的离散二值编码,其中di,gi,hi∈{-1,+1}r,r为单个分支输出的哈希编码的长度,规定[]T表示向量的转置,[x]+表示函数max(0,x),∥bi-bj∥H表示二值向量bi和bj之间的海明距离:
1)对于最小批处理量为N的数据三元组损失函数如下定义:
其中di,分别表示锚点、正样例点、负样例点,α表示间隔超参数;
定义关于离散二值编码{di,gi,hi}的三元组损失函数如下:
2)使用归一化指数函数损失为行人图片的实值特征表示建模,定义分类损失函数如下:
定义关于实值特征的归一化指数函数损失如下:
3)在需要建立m个哈希索引的情况下,对哈希编码进行m等份的划分;设计分块划分策略,对每个分支输出的哈希编码单独进行m等份的划分,然后将各分支的第j份划分进行合并以形成第j个索引
令和分别表示离散二值变量bi和bj的第l个索引,定义和之间的海明距离为定义多索引查询敏感损失如下:
综合式(2),(4),(6),得到多粒度网络模型的最终目标函数如下:
β,γ是折中超参数,均为正实数,N是最小批处理量,r为单个分支输出的哈希编码的长度,在求解时,对目标函数(7)进行求导,使用梯度反向传播优化模型的参数,训练完成后,将实值特征保存在外存,构建外存数据库;基于哈希编码构建索引,并将哈希编码及索引保存在内存,构建内存数据库,以便于快速检索;
3)基于哈希编码,设计分块划分策略构建索引;
4)对于摄像头新收集的数据,使用哈希函数计算哈希编码,并实时增加到索引中;
5)对于给定的目标行人图片,使用哈希函数计算哈希编码,基于哈希编码在索引中进行检索,再基于实值特征进行重排序。
2.如权利要求1所述的基于深度多索引哈希的行人重识别方法,其特征在于,所述步骤1)中,对于来自监控摄像头的原始视频数据,首先需要进行视频切帧操作,然后对切帧后的图片数据进行行人区域检测,以生成行人图片作为训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910166071.1/1.html,转载请声明来源钻瓜专利网。