[发明专利]一种基于Lucene倒排索引的图像特征索引方法在审

专利信息
申请号: 201410185288.4 申请日: 2014-05-05
公开(公告)号: CN103955514A 公开(公告)日: 2014-07-30
发明(设计)人: 叶柏龙;龙坡;陈浩;姚明东;程京;杨国龙 申请(专利权)人: 陈浩;长沙博龙信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 410082 湖南省长*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 lucene 索引 图像 特征 方法
【说明书】:

技术领域

发明属于多媒体信息检索技术领域,涉及一种倒排索引改进方案,具体地说,涉及一种基于Lucene倒排索引的图像特征索引方法。

背景技术

近年来,随着web2.0的普及,多媒体信息检索需求越来越大,需求推动技术的发展,近年来图像检索的研究取得了很大的成就,基于内容的图像检索技术的研究已经成为了搜索引擎研究最为活跃的研究领域之一。

目前基于内容的图像检索的主要索引方式有LSH算法及其数据结构、多维空间树R-TREE、分层K-meansTree和倒排索引。LSH算法通过局部敏感感知原理,过滤掉大部分不相关的数据,从而只需要计算少量的图像与源图像之间的相似度,他的优点是速度较快,缺点是内存消耗很大,而且不保证得到最优解。R-TREE:一种类似B-tree的高维空间索引结构,R-TREE适应的维数不高,只能在2-5维之间,维数的增加会导致性能程指数级下降,也就是所谓的维度灾难,后续一系列的R-TREE改进算法也都没能克服维度灾难。目前检索性能最好的应该是分层K-meansTree,他通过分层的k-means聚类算法,将相似的图像聚类到一个相似半径里面,这样查询的时候直接取相似半径里的图像计算相似度就行了,这种算法的优势是,避免了线性的计算每个图像之间的相似度,极大的提高了检索速度。但缺点是,我们每层选取的类数目很大程度影响着检索效率,而且如果在用k-means算法聚类的时候,初始值选择不合适会导致产生局部最优解,而不是全局最优解,这个时候我们就得多次随机选择初始值,然后选择最优解。还有一个缺点就是,这种结构如果新增一个图像,就需要整棵树的重新分层聚类一遍,这个代价太大了。

相对而言,采用倒排索引的方式索引和检索图像特征,是一种不错的选择,倒排索引不存在维度灾难,而且现在对于倒排索引技术的应用相当成熟,他的索引更新代价相对较小,但是倒排索引应用在图像检索中模糊程度过大,因为倒排索引在给文档评分的时候是按照关联度来评分的,也就是文档包含某个词,他就具有一定的分数,而对于图像特征向量,每个维度上的值是不能与其他维度上的值相关联的,索引现在一般的倒排索引应用在图像检索中会导致搜索结果过于模糊,结果集太大,导致检索性能低。

在已有研究成果中,现今的倒排索引应用在图像检索领域,无法区分数据所在的维度位置,因而导致检索时会有大量的不相关的图像加入候选集,候选集的数量直接影响了检索效率。普通的文本在倒排表中建立索引是没有顺序的,也就是说向量[1,2,3]会被认为和[3,1,2]是相似的,这对于图像的特征向量是不符合逻辑,在图像的特征向量中,每个维度的值比较只能和自己对应维度上值的比较,而不能和其他维度值比较。因此,我们需要找到一种方式能让倒排索引认为[1,2,3]和[1,2,4]是相似的,而不是[1,2,3]和[3,1,2]是不相似的,这就要求在对图像的特征向量建立倒排索引的时候,需要让索引加入位置信息。

发明内容

为了克服现有技术中的缺陷,本发明提供了一种基于Lucene倒排索引的图像特征索引方法,针对图像检索,本方法通过改进图像特征的存储和索引方式,提高图像的检索速度和综合检索性能。其技术方案为,

一种基于Lucene倒排索引的图像特征索引方法,包括以下步骤:

A创建索引过程:

A1词法分析语言处理,对文本串做分词处理;

A2加入位置信息,对每个分好的词,按照其在文本中的位置加入含有位置编号的前缀,例如:第一个位置加入L1_;

A3索引创建,根据分好的词,创建索引,建立词和文档的倒排表;

A4将倒排索引表写入磁盘保存;

B检索过程:

B1词法分析语言处理,对文本串做分词处理;

B2加入位置信息,对每个分好的词,按照其在文本中的位置加入含有位置编号的前缀;

B3语法分析,分析查询语句的查询逻辑,提交检索器根据查询逻辑搜索结果;

B4搜索索引,根据语法分析器提交的逻辑检索相关文档;

B5相关性排序,按照查询文档和候选集文档的相关性排序选择TopN作为结果集返回。

进一步优选,步骤A1中所述词法分析语言处理是根据图像特征向量文本串化后的特点,使用lucene的WhitespaceAnalyzer按照空格分词。

进一步优选,步骤A2中所述加入位置信息,对每个分好的词,按照其在文本中的位置加入含有位置编号的前缀,同时去掉值为0的词;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈浩;长沙博龙信息技术有限公司,未经陈浩;长沙博龙信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410185288.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top