[发明专利]一种基于Lucene倒排索引的图像特征索引方法在审

申请号：	201410185288.4	申请日：	2014-05-05
公开（公告）号：	CN103955514A	公开（公告）日：	2014-07-30
发明（设计）人：	叶柏龙;龙坡;陈浩;姚明东;程京;杨国龙	申请（专利权）人：	陈浩;长沙博龙信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	410082 湖南省长***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lucene 索引图像特征方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于多媒体信息检索技术领域，涉及一种倒排索引改进方案，具体地说，涉及一种基于Lucene倒排索引的图像特征索引方法。

背景技术

近年来，随着web2.0的普及，多媒体信息检索需求越来越大，需求推动技术的发展，近年来图像检索的研究取得了很大的成就，基于内容的图像检索技术的研究已经成为了搜索引擎研究最为活跃的研究领域之一。

目前基于内容的图像检索的主要索引方式有LSH算法及其数据结构、多维空间树R-TREE、分层K-meansTree和倒排索引。LSH算法通过局部敏感感知原理，过滤掉大部分不相关的数据，从而只需要计算少量的图像与源图像之间的相似度，他的优点是速度较快，缺点是内存消耗很大，而且不保证得到最优解。R-TREE：一种类似B-tree的高维空间索引结构，R-TREE适应的维数不高，只能在2-5维之间，维数的增加会导致性能程指数级下降，也就是所谓的维度灾难，后续一系列的R-TREE改进算法也都没能克服维度灾难。目前检索性能最好的应该是分层K-meansTree，他通过分层的k-means聚类算法，将相似的图像聚类到一个相似半径里面，这样查询的时候直接取相似半径里的图像计算相似度就行了，这种算法的优势是，避免了线性的计算每个图像之间的相似度，极大的提高了检索速度。但缺点是，我们每层选取的类数目很大程度影响着检索效率，而且如果在用k-means算法聚类的时候，初始值选择不合适会导致产生局部最优解，而不是全局最优解，这个时候我们就得多次随机选择初始值，然后选择最优解。还有一个缺点就是，这种结构如果新增一个图像，就需要整棵树的重新分层聚类一遍，这个代价太大了。

相对而言，采用倒排索引的方式索引和检索图像特征，是一种不错的选择，倒排索引不存在维度灾难，而且现在对于倒排索引技术的应用相当成熟，他的索引更新代价相对较小，但是倒排索引应用在图像检索中模糊程度过大，因为倒排索引在给文档评分的时候是按照关联度来评分的，也就是文档包含某个词，他就具有一定的分数，而对于图像特征向量，每个维度上的值是不能与其他维度上的值相关联的，索引现在一般的倒排索引应用在图像检索中会导致搜索结果过于模糊，结果集太大，导致检索性能低。

在已有研究成果中，现今的倒排索引应用在图像检索领域，无法区分数据所在的维度位置，因而导致检索时会有大量的不相关的图像加入候选集，候选集的数量直接影响了检索效率。普通的文本在倒排表中建立索引是没有顺序的，也就是说向量[1,2,3]会被认为和[3,1,2]是相似的，这对于图像的特征向量是不符合逻辑，在图像的特征向量中，每个维度的值比较只能和自己对应维度上值的比较，而不能和其他维度值比较。因此，我们需要找到一种方式能让倒排索引认为[1,2,3]和[1,2,4]是相似的，而不是[1,2,3]和[3,1,2]是不相似的，这就要求在对图像的特征向量建立倒排索引的时候，需要让索引加入位置信息。

发明内容

为了克服现有技术中的缺陷，本发明提供了一种基于Lucene倒排索引的图像特征索引方法，针对图像检索，本方法通过改进图像特征的存储和索引方式，提高图像的检索速度和综合检索性能。其技术方案为，

一种基于Lucene倒排索引的图像特征索引方法，包括以下步骤：

A创建索引过程：

A1词法分析语言处理，对文本串做分词处理；

A2加入位置信息，对每个分好的词，按照其在文本中的位置加入含有位置编号的前缀，例如：第一个位置加入L1_；

A3索引创建，根据分好的词，创建索引，建立词和文档的倒排表；

A4将倒排索引表写入磁盘保存；

B检索过程：

B1词法分析语言处理，对文本串做分词处理；

B2加入位置信息，对每个分好的词，按照其在文本中的位置加入含有位置编号的前缀；

B3语法分析，分析查询语句的查询逻辑，提交检索器根据查询逻辑搜索结果；