[发明专利]一种基于施密特正交化约束的细粒度检索方法在审
申请号: | 201910630124.0 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110334236A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 纪荣嵘;郑侠武 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06N3/08 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 细粒度 检索 样本集 正交化 排序 神经网络 损失函数 物体定位 集合 标签 图像定位信息 图像 参数更新 融合中心 训练集合 中心点 监督 求导 画像 测试 融合 引入 学习 | ||
一种基于施密特正交化约束的细粒度检索方法,涉及中心排序损失和弱监督物体定位的融合。1)给定标好的细粒度图像‑标签对集合,将图像‑标签对集合划分为训练照片样本集、训练画像样本集和测试照片样本集;2)利用训练集合来训练一个神经网络;3)当步骤2)计算好损失函数之后,可直接将结果输入到类似于PyTorch等自动求导的深度学习框架中,对神经网络进行参数更新;4)利用施密特正交化,对中心点进行去相关化。引入中心排序损失函数的思想,解决细粒度检索难以训练的问题;利用弱监督定位获得物体框架,进行高效而准确的细粒度物体检索。融合中心排序损失及弱监督物体定位框架,提高细粒度检索的精度,获得更好的图像定位信息。
技术领域
本发明涉及中心排序损失和弱监督物体定位的融合,尤其是涉及特征学习以及物体定位的一种基于施密特正交化约束的细粒度检索方法。
背景技术
近年来,随着移动设备以及互联网的发展,人们携带在身上的拍照设备的数量以及质量开始出现指数级别的增长。用户更多的使用摄像机去产生用户内容,于此同时,当他们想去搜索一些内容的时候,越来越多的用户用图像信息来取代之前的文字信息,这就引导了基于内容的图像搜索(CBIR)系统的产生。在基于内容的图像搜索系统的环境设定下,用户需要输入一张图片,计算机通过对图片的理解,来根据相同内容进行相同或相似内容之间的比对,以此为基准,返回相同内容之间的排序序列。在1992年,T.Kato利用一些色彩以及形状来构建了一个数据库,并且以此建立了一个数据库来进行相关的检索,因而率先提出了这一概念,此后,CBIR被广泛的应用于各个领域进行产品实现或者研究验证。基于视觉的词袋模型(BoVW)(Yang J,Jiang Y G,Hauptmann A G,et al.Evaluating bag-of-visual-words representations in scene classification[C]//Proceedings of theinternational workshop on Workshop on multimedia information retrieval.ACM,2007:197-206)以及倒排索引技术的提出,目前最先进的以图搜图引擎,例如百度、谷歌、必应等公司,可以在数十亿图像的数据库内以毫秒为单位返回图像搜索序列。并且随着深度学习技术的发展,基于内容的检索系统在精度上有了极大的提高。在视觉检索领域,尽管已经提出了不同的方法来改进目前几乎重复的搜索结果,但就目前而言,仍然很难看到有搜索引擎以细粒度的概念去检索一个物体。也就是说,在进行视觉检索时,不仅仅考虑物体的大的类别,而进行物体细分领域的检索。例如,当用户上传拍摄的鸟或者花的图像时,检索返回的图像如果仅仅包含鸟这一概念的图片时,从根本上达不到用户检索的真正需求。用户更想要的是针对于拍摄物体的细分的概念。再比如当用户在街上看到一辆喜欢的车,或者一件喜欢的衣服,当进行相关的检索的时候,用户更喜欢返回和这个商品相关的细分的种类的相关图片的信息—这个车是宝马下面哪一个系的,这件衣服是哪个牌子的哪一款?而不是仅仅返回相同的车以及衣服。这就要求一个具体的图像搜索引擎在考虑图像表观特征的同时,还需要对物体细粒度方面的语义信息,进行相同的检索,并且针对于训练集和中没有出现过的类别,视觉检索系统依然有能力对他们进行有效的区分以及聚合。
早期的细粒度视觉检索从基于经典视觉的方法,利用视觉词袋树加上SVM语义分类器,同时获得细粒度图像的表观以及语义信息,进行级联检索,在深度学习时代,相关方法主要利用排序损失来学习一个从图像到特征的度量,也就是将缩小相似图片的欧式距离,反之亦然。值得注意的是,魏秀参等人(Wei X S,Luo J H,Wu J,et al.Selectiveconvolutional descriptor aggregation for fine-grained image retrieval[J].IEEETransactions on Image Processing,2017,26(6):2868-2881.)提出了一种基于定位的方法,利用定位信息在预先训练好的深度学习模型上来抽取特征,这样的方法大大的提升了精度,并且不需要任何的学习步骤,因此我们认为,在细粒度视觉检索中,定位是一个必不可少的部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910630124.0/2.html,转载请声明来源钻瓜专利网。