[发明专利]索引文件的生成方法及装置在审
申请号: | 201711470608.0 | 申请日: | 2017-12-29 |
公开(公告)号: | CN110019875A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 吉恒杉 | 申请(专利权)人: | 上海全土豆文化传播有限公司 |
主分类号: | G06F16/51 | 分类号: | G06F16/51;G06F16/13 |
代理公司: | 北京林达刘知识产权代理事务所(普通合伙) 11277 | 代理人: | 刘新宇 |
地址: | 200241 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引文件 空索引 训练数据 训练数据集 特征向量 文件发送 文件返回 集群 图像检索 转换 | ||
本公开涉及索引文件的生成方法及装置。该方法包括:提取训练数据集中各个训练数据的特征向量;根据各个训练数据的特征向量,得到训练数据集的类中心;根据训练数据集的类中心生成空索引文件;将空索引文件发送至集群的各个节点;获取各个节点基于空索引文件返回的CPU索引文件;将各个CPU索引文件转换为GPU索引文件。本公开通过提取训练数据集中各个训练数据的特征向量,得到训练数据集的类中心,根据训练数据集的类中心生成空索引文件,将空索引文件发送至集群的各个节点,获取各个节点基于空索引文件返回的CPU索引文件,并将各个CPU索引文件转换为GPU索引文件,由此能够利用GPU辅助、加快图像检索。
技术领域
本公开涉及计算机技术领域,尤其涉及一种索引文件的生成方法及装置。
背景技术
近年来,随着多媒体技术和计算机网络的飞速发展,全世界的数字图像的数量正以惊人的速度在增长。为了使这些庞杂的图像中所包含的信息被有效地访问和利用,必然需要一种能够快速且准确地查找访问图像的技术,即图像的检索技术。随着大规模数字图像库的出现,传统的依赖于人工标注进行的基于文本的图像检索技术已经无法满足用户日益增长的需求,CBIR(Content Based Image Retrieval,基于内容的图像检索)技术便应运而生。CBIR的一般做法是先提取出图像的特征建立特征数据库,这样就把图像库中的一个实例转换成了特征空间中的一个点。而图像特征一般都是高维的矢量数据,所以对图像基于内容的相似检索就转换为对高维特征矢量的最邻近检索。与此同时,对于大规模的图像数据库而言,其特征数据库也是大规模的。因此,传统的顺序扫描方式无法满足用户的检索要求,迫切需要有合适的索引机制来辅助、加速图像检索的进程。
发明内容
有鉴于此,本公开提出了一种索引文件的生成方法及装置。
根据本公开的一方面,提供了一种索引文件的生成方法,包括:
提取训练数据集中各个训练数据的特征向量;
根据所述各个训练数据的特征向量,得到所述训练数据集的类中心;
根据所述训练数据集的类中心生成空索引文件;
将所述空索引文件发送至集群的各个节点;
获取所述各个节点基于所述空索引文件返回的CPU索引文件;
将各个所述CPU索引文件转换为GPU索引文件。
在一种可能的实现方式中,在将各个所述CPU索引文件转换为GPU索引文件之后,所述方法还包括:
将所有所述CPU索引文件和所有所述GPU索引文件合并为总索引文件。
在一种可能的实现方式中,将各个所述CPU索引文件转换为GPU索引文件,包括:
通过Faiss工具将各个所述CPU索引文件转换为GPU索引结构,得到各个所述CPU索引文件对应的GPU索引文件。
在一种可能的实现方式中,根据所述各个训练数据的特征向量,得到所述训练数据集的类中心,包括:
对所述各个训练数据的特征向量进行乘积量化处理,得到所述训练数据集的类中心。
在一种可能的实现方式中,根据所述各个训练数据的特征向量进行乘积量化处理,得到所述训练数据集的类中心,包括:
将所述各个训练数据的特征向量的各个分量分成M组,其中,M为大于1的整数;
对每组分量进行K均值聚类,得到每组分量对应的个类中心;
分别根据每组分量对应的个类中心确定类中心集合;
将M个所述类中心集合的笛卡尔积确定为所述训练数据集的K个类中心。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海全土豆文化传播有限公司,未经上海全土豆文化传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711470608.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:索引文件的生成方法、装置及系统
- 下一篇:数据查询方法、电子设备及存储介质