[发明专利]一种快速的多标签图片检索系统及实现方法有效
| 申请号: | 201710076634.9 | 申请日: | 2017-02-13 |
| 公开(公告)号: | CN106951911B | 公开(公告)日: | 2021-06-29 |
| 发明(设计)人: | 胡焜;白洪亮;董远 | 申请(专利权)人: | 苏州飞搜科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/583 |
| 代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 卜荣丽 |
| 地址: | 215123 江苏省苏州市苏州工*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 快速 标签 图片 检索系统 实现 方法 | ||
1.一种快速的多标签图片检索的方法,其特征在于包括如下步骤:
在一卷积神经网络中,部署用于提取候选区域的候选区域生成网络RPN网络,并提取出图片的候选区域信息,对得到的候选区域信息进行ROI池化计算;
池化结束后通过一全连接层,再根据多标签信息建立一多标签分类损失函数来训练所述卷积神经网络,同时建立一加权三维损失函数来训练上述的卷积神经网络,多标签信息为图片中同时包含的多个标注信息;
通过经过多任务学习后的卷积神经网络在图片候选集中提取每一张图片的哈希码并存入数据库,
若输入需要查询的图片,则通过所述经过多任务学习后的卷积神经网络中的前馈计算提取得到需要查询的图片的哈希码,并与数据库中的哈希码对比后,完成图片检索;
其中,建立一多标签分类损失函数来训练所述卷积神经网络时具体步骤如下:
2-1)根据多标签信息得到标签的总个数为C,
2-2)连接一个通道数为C的全连接层后,输入N个候选区域得到一个N*C矩阵,
2-3)在所述N*C矩阵中的每一行表示一个候选区域所对应的特征向量,维度为C,Y1,Y2,...,YN分别表示每个候选区域对应的特征向量,再进行如下计算yj=max{Yj1,Yj2,...,YjN}j=1,2,...,C,其中yj表示第j类标签对应的特征值,
2-4)经过下面的公式得到一个概率分布p=(p1,p2,...,pC):
2-5)通过下述的多标签分类损失函数来训练卷积神经网络:
其中c+表示图片包含的所有标签,|c+|表示图片中的真实标签数量。
2.根据权利要求1所述方法,其特征在于,同时建立一加权三维损失函数来训练上述的卷积神经网络的步骤具体包括:
3-1)设一全连接层的通道数为B,得到一个N*B矩阵,
3-2)在所述N*B矩阵中,每一行表示一个候选区域对应的特征向量,再用H表示所述N*B矩阵,用P表示所述N*C矩阵;
3-3)在H中,用Hi表示第i个候选区域对应的特征,
3-4)在P中,用Pij表示第i个候选区域属于第j个标签的概率,
3-5)通过融合P和H得到一个c*b维的向量,这个向量分为c组,每一组表示对应特定标签的b维特征向量,具体计算如下公式所示:
其中,表示Kronecker积,对于一个c维的向量Pi和一个b维的向量Hi,Kronecker积可以得到一个c*b维的向量:
其中,表示向量Pi的第c维,表示向量Hi的第b维;
3-6)经过上面计算得到一个c*b维的向量F,作为c组,每一组表示对应特征标签的特征向量,之后再接入一个通道数为q的全连接层,
3-7)用下面的损失函数来训练网络:
其中,fi,fi+,fi-表示训练集中的一个三元组对应的特征,分别表示锚样本,相似样本,以及非相似样本的特征;s(*,*)表示两个样本之间公共标签的数目。
3.根据权利要求1所述方法,其特征在于,还包括:根据提取得到的需要查询的图片的哈希码,和数据库中的哈希码分别计算出汉明距离来度量图片之间的相似性。
4.根据权利要求3所述方法,其特征在于,数据库中的每张图片以及待查询的图片都由一个48bit的短向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州飞搜科技有限公司,未经苏州飞搜科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710076634.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据聚类的方法及装置
- 下一篇:一种双油缸电力线缆切断专用装置





