[发明专利]索引文件的生成方法及装置在审

申请号：	201711470608.0	申请日：	2017-12-29
公开（公告）号：	CN110019875A	公开（公告）日：	2019-07-16
发明（设计）人：	吉恒杉	申请（专利权）人：	上海全土豆文化传播有限公司
主分类号：	G06F16/51	分类号：	G06F16/51;G06F16/13
代理公司：	北京林达刘知识产权代理事务所(普通合伙) 11277	代理人：	刘新宇
地址：	200241 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	索引文件空索引训练数据训练数据集特征向量文件发送文件返回集群图像检索转换
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及索引文件的生成方法及装置。该方法包括：提取训练数据集中各个训练数据的特征向量；根据各个训练数据的特征向量，得到训练数据集的类中心；根据训练数据集的类中心生成空索引文件；将空索引文件发送至集群的各个节点；获取各个节点基于空索引文件返回的CPU索引文件；将各个CPU索引文件转换为GPU索引文件。本公开通过提取训练数据集中各个训练数据的特征向量，得到训练数据集的类中心，根据训练数据集的类中心生成空索引文件，将空索引文件发送至集群的各个节点，获取各个节点基于空索引文件返回的CPU索引文件，并将各个CPU索引文件转换为GPU索引文件，由此能够利用GPU辅助、加快图像检索。

技术领域

本公开涉及计算机技术领域，尤其涉及一种索引文件的生成方法及装置。

背景技术

近年来，随着多媒体技术和计算机网络的飞速发展，全世界的数字图像的数量正以惊人的速度在增长。为了使这些庞杂的图像中所包含的信息被有效地访问和利用，必然需要一种能够快速且准确地查找访问图像的技术，即图像的检索技术。随着大规模数字图像库的出现，传统的依赖于人工标注进行的基于文本的图像检索技术已经无法满足用户日益增长的需求，CBIR(Content Based Image Retrieval，基于内容的图像检索)技术便应运而生。CBIR的一般做法是先提取出图像的特征建立特征数据库，这样就把图像库中的一个实例转换成了特征空间中的一个点。而图像特征一般都是高维的矢量数据，所以对图像基于内容的相似检索就转换为对高维特征矢量的最邻近检索。与此同时，对于大规模的图像数据库而言，其特征数据库也是大规模的。因此，传统的顺序扫描方式无法满足用户的检索要求，迫切需要有合适的索引机制来辅助、加速图像检索的进程。

发明内容

有鉴于此，本公开提出了一种索引文件的生成方法及装置。

根据本公开的一方面，提供了一种索引文件的生成方法，包括：

提取训练数据集中各个训练数据的特征向量；

根据所述各个训练数据的特征向量，得到所述训练数据集的类中心；

根据所述训练数据集的类中心生成空索引文件；

将所述空索引文件发送至集群的各个节点；

获取所述各个节点基于所述空索引文件返回的CPU索引文件；

将各个所述CPU索引文件转换为GPU索引文件。

在一种可能的实现方式中，在将各个所述CPU索引文件转换为GPU索引文件之后，所述方法还包括：

将所有所述CPU索引文件和所有所述GPU索引文件合并为总索引文件。

在一种可能的实现方式中，将各个所述CPU索引文件转换为GPU索引文件，包括：