[发明专利]一种行人重识别模型的构建方法及行人重识别方法有效
申请号: | 202110542713.0 | 申请日: | 2021-05-19 |
公开(公告)号: | CN112966673B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 周金明;尤晋卿 | 申请(专利权)人: | 南京视察者智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08;G06F17/15;G06F17/16 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210014 江苏省南京市秦淮区永智*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 行人 识别 模型 构建 方法 | ||
1.一种行人重识别模型的构建方法,其特征在于,包括如下步骤:
步骤1,构建非全连接卷积,对于非全连接卷积,不同的位置将会被不同的卷积核进行卷积运算,所述不同的卷积核表示卷积核大小相同,参数不同,图像经过非全连接卷积后的尺寸和普通卷积相比不发生改变;
设定I代表输入的尺寸,p代表padding操作的大小,f代表卷积核的尺寸,s代表步长,那么根据公式可得到非全连接卷积中卷积核的数目N:
即被卷积操作的位置数量为N;
步骤2,将非全连接卷积和普通卷积通过加权方式结合,形成全局-局部注意力模块;使用全局-局部注意力模块替换OSNet中的所有普通卷积,保留OSNet的其余结构不变,形成基于非全连接卷积的行人重识别模型;
步骤1中构建非全连接卷积的方法,具体如下:
(1)将输入图片通过Unfold操作,该操作为根据输入的图像尺寸以及卷积核长宽,将输入图片重新整合成对应的大小M*N,M为输入图片的通道数乘Unfold操作的卷积核大小,代表每个将被卷积位置的特征数量,N为被卷积操作的位置数量;
(2)构建一个特定对角线为1的稀疏矩阵,假定上述的输入图片的通道为inC,卷积核的长宽记为W和H,卷积操作的位置数量记作N,初始化一个全零矩阵,其大小为(N,inC*W*H*N),并将其特定对角线元素设置为1,具体为:记len等于inC*W*H,对于第i行来说,第i*len列到第(i+1)*len列将会被初始化为1;
(3)将第(1)步中获得的M*N大小的矩阵先进行转置操作,得到N*M的矩阵,从行这个维度对N*M的矩阵进行复制和连接的操作,复制和连接次数为非全连接卷积中卷积核的数目N,得到一个拼接矩阵N*(N*M);
(4)将第(2)步构建的稀疏矩阵和第(3)步中的拼接矩阵做哈德曼积,得到特定对角线元素为相应位置特征的矩阵Z;
(5)构建非全连接卷积核,具体为,构建N个长宽为W*H的张量,并且通过随机初始化的方式初始化这些张量,并将其拼接起来,构建非全连接卷积核;
(6)将所述特定对角线元素为相应位置特征的矩阵Z和非全连接卷积核做矩阵乘法,将矩阵乘法的结果转化成标准输出的相应大小的张量,张量的长宽为非全连接卷积中卷积核的数目N的两个乘子。
2.根据权利要求1所述的一种行人重识别模型的构建方法,其特征在于,所述步骤2中将非全连接卷积和普通卷积通过加权方式结合,具体为:将普通的卷积操作记为conv,将非全连接卷积记为uconv,两者输出大小相同,将两者的输出通过w和1-w进行加权,其中,w是一个和上述两个卷积输出大小相同、并且通过sigmoid函数将其限制在0-1范围之内的张量。
3.根据权利要求1-2任一项所述的一种行人重识别模型的构建方法,其特征在于,步骤2中保留OSNet的其余结构不变,为保留OSNet的多尺度机制不变。
4.一种行人重识别方法,其特征在于,采用权利要求1-3任一项所述的一种行人重识别模型的构建方法构建的行人重识别模型,进行行人特征提取和识别,在行人重识别数据集的构建方面,进行如下优化:
通过使用mask-rcnn的方式,将行人从这些背景中提取出来,并将其背景色统一设置成120-130,得到背景设置成120-130的行人图片;同时,构建特定场景常见背景库,通过随机的方式为行人更换背景,得到更换背景的图片;在对行人重识别模型进行训练时,将原始图片、背景设置成120-130的行人图片、以及更换背景的图片混合,使用triplet loss进行训练,在识别时,将背景设置成120-130的行人图片作为底库进行匹配。
5.根据权利要求4所述的一种行人重识别方法,其特征在于,在行人重识别数据集的构建方面,优化还包括:通过在现有行人ID的行人主体上增加透明深色掩码的方式,人为增加深色衣物行人数据的数量。
6.根据权利要求4-5任一项所述的一种行人重识别方法,其特征在于,在行人重识别数据集的构建方面,优化还包括:通过使用First order model增加同一行人的不同姿态,First order model通过一张运动中的行人图像去驱动另一张资源图像,达到模仿生成的效果,进而达到模拟多个摄像角度的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京视察者智能科技有限公司,未经南京视察者智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110542713.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种衣架捆扎机
- 下一篇:一种氮化镓器件老化箱