[发明专利]一种基于集成学习的零样本哈希检索方法在审
申请号: | 202011092264.6 | 申请日: | 2020-10-13 |
公开(公告)号: | CN112364192A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 赵钰莹;赖韩江;印鉴 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/51;G06F16/583;G06N20/20 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510260 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 样本 检索 方法 | ||
1.一种基于集成学习的零样本哈希检索方法,其特征在于,包括以下步骤:
S1:将训练集按照类别标签分为类别不重叠的两部分A和B;
S2:分别用A、B和A+B作为训练数据,通过VGG-16模型和一层全连接层,得到训练样本的哈希码;
S3:利用三元组损失,得到训练过程中的损失;
S4:利用SWA方法训练更新网络,得到收敛后的模型;
S5:步骤S2中的3个数据集训练可以得到3个不同的模型,求它们求平均值,得到最终的集成模型;
S6:计算集成模型在测试集上的检索结果。
2.根据权利要求1所述的基于集成学习的零样本哈希检索方法,其特征在于,所述步骤S1的具体过程是:
将训练集按照类别标签分为类别不重叠的两部分A和B,对于数据集cifar10来说,把1~9类划分为训练集,第10类划分为测试集;在训练的过程中,把训练集按照类别划分为A(第1~5类)和B(第6~9类)两部分。
3.根据权利要求2所述的基于集成学习的零样本哈希检索方法,其特征在于,所述步骤S2的哈希模型的设计是:
S21:首先,分别将数据集A、B和A+B分别作为训练集,训练出3个不同的模型;
S22:使用VGG-16模型提取训练集中的图像样本的高维实数特征;
S23:将S22步骤得到的高维实数特征输入到全连接层和tanh激活函数后,得到实数向量v,再对v进行二值化,若大于0的元素设置为1,小于0的元素设置为0,得到二进制码b,即哈希码,量化公式如下:
4.根据权利要求3所述的基于集成学习的零样本哈希检索方法,其特征在于,所述步骤S3的三元组损失具体步骤是:
S31:在每个batch的训练样本中,构造三元组I,Ipos,Ineg,其中,原点I是在训练样本中随机选取的一个样本,同类样本点Ipos是和I同一类别的样本,而异类样本点Ineg是和I不同类别的样本;
S32:三元组损失计算公式如下:
其中超参数margin,表示I和负样本Ineg的距离与I和正样本Ipos的距离的差最小值;用欧式距离表示两个样本实数特征之间的距离。
5.根据权利要求4所述的基于集成学习的零样本哈希检索方法,其特征在于,所述步骤S4中SWA的训练过程是:
S41:先用VGG-16的预训练模型参数初始化特征提取模型,然后随机初始化最后一层全连接层(用于获得哈希码的全连接层),得到初始化后的权重和wswa;
S42:迭代n轮,训练模型;
S43:对于第i轮迭代,依次更新学习率和模型权重,更新公式如下:
循环学习率:
更新网络权重:
S44:对于第i轮迭代,若mod(i,c)=0,其中,c是一个预设的超参数,表示循环长度,用滑动平均的方式更新最终的网络权重wswa,公式如下:
nmodels=i/c
6.根据权利要求5所述的基于集成学习的零样本哈希检索方法,其特征在于,步骤S5中,得到集成模型的过程为:
用训练集A、B和A+B分别训练模型,得到三个不同的模型权重w1、w2和w3,用取平均值的方法,得到最终的集成模型权重:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011092264.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种农副产品保鲜箱
- 下一篇:一种可活动的衣柜底抽柜