[发明专利]基于SorlCloud非结构化数据检索方法和系统在审
申请号: | 201310400164.9 | 申请日: | 2013-09-06 |
公开(公告)号: | CN103488702A | 公开(公告)日: | 2014-01-01 |
发明(设计)人: | 罗学礼;杨晴;杨莉;杜韶辉;吴清华;马瑞;臧戎 | 申请(专利权)人: | 云南电力试验研究院(集团)有限公司电力研究院;昆明能讯科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650217 云南省昆明*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 sorlcloud 结构 数据 检索 方法 系统 | ||
技术领域
本发明涉及信息技术处理领域,具体涉及一种基于SorlCloud非结构化数据检索方法和系统。
背景技术
传统的搜索引擎是基于关键字和关系型数据库的,即需要在数据库中包含关键字字段,通过模糊查询对包含查询条件的关键字字段进行检索,找到符合条件的记录,进一步获取详细信息。而非结构化数据的搜索则有着很大的不同,非结构化的数据不是按照关系型数据库的结构排列好的,而是一些文档、图像、音频、视频等,在对文档内容、图像中的文字、音频中的说话内容、视频中的字幕等的搜索存在比较大得需求。因此针对非结构化数据的搜索制定一套完整的解决方案是一个非常重要的研究课题。
SolrCloud是当前较为流行的开源分布式搜索引擎解决方案,其基于ZooKeeper和Solr进行搭建,支持分布式索引的全文检索机制,自动容错,通过配置即可完成分布式环境的部署,具有良好的可扩展性,是非结构化数据搜索的最好选择。
发明内容
本发明的目的为了解决上述问题,提供了一种基于SorlCloud非结构数据检索方法,其实时性好、占用资源少。
为实现上述目的,基于SorlCloud非结构化数据检索方法,包括:
用户通过向部署在servlet容器中的Solr Web的应用程序发送HTTP请求来启动索引和搜索;
Apache Solr接收用户发送的检索请求,确定要使用的适当的SolrRequestHandler,然后处理请求;
Apache Solr调用搜索接口通过发送HTTP将符合检索条件的对象返回给用户。
具体的,所述用户向Apache Solr索引servlet传递索引请求包括:
add/update允许向Apache Solr添加文档或更新文档;
commit告诉Apache Solr,上次提交的请求所做的所有更改都可以被搜索到;
optimize重构Lucene的文件以改进搜索性能;
delete可以通过id或查询来指定。
进一步的,所述用户发送的检索请求携带用户所要目标的检索条件。
进一步的,所述根据用户发送的检索请求,Lucene先在内存中进行索引操作,并根据一定的批量进行文件的写入,IndexWriter中的MERGE_FACTOR参数可以在构造索引器后根据应用环境的情况充分利用内存减少文件的操作。
进一步的:根据所述的Apache Solr调用搜索接口通过发送HTTP将符合检索条件的对象返回具体为将所有结果中匹配度最高的头100条结果的ID放到结果集缓存中并返回。
再者,若首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存,并再重新向后抓取。
具体的,所述Apache Solr接收用户发送的检索请求为用POST方法向Solr服务器发送一个描述所有Field及其内容的XML文档。
进一步的,Apache Solr调用搜索接口时只需要发送HTTP GET请求即可,然后对Solr返回的信息进行重新布局,以产生利于用户理解的页面内容布局。
本发明中基于SorlCloud非结构化数据检索系统,包括4个Solr节点的集群,索引库分布在两个Shard里面,每个Shard包含两个Solr节点,一个是主节点,一个是备份节点,主节点负责维护集群状态信息的Overseer节点,它是一个总控制器。
进一步的,所述的4个Solr节点中的任何节点都可以接收索引更新的请求,然后再将这个请求转发到文档所应该属于的那个Shard的主节点,主节点更新结束完成,最后将版本号和文档转发给同属于一个Shard的备份节点。
本发明具有以下有益效果:非结构化数据管理平台的搜索解决方案集成了优秀的分布式搜索引擎SorlCloud,基于ZooKeeper和Solr进行搭建,支持分布式索引的全文检索机制,自动容错,通过配置即可完成分布式环境的部署,具有良好的可扩展性。加上OCR、ICR和其他一些智能识别技术的支撑,并根据非结构化数据特点进行针对性优化和功能扩展,从而形成一个强有力的分布式智能搜索引擎,对于非结构化数据管理来说是一个质的飞跃。本发明检索耗费时间从原来的10秒以上缩短至亚秒级,从而达到高效的目的。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电力试验研究院(集团)有限公司电力研究院;昆明能讯科技有限责任公司,未经云南电力试验研究院(集团)有限公司电力研究院;昆明能讯科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310400164.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:土壤源热泵、太阳能联合蓄热防火热水供暖系统
- 下一篇:静音节能电陶炉
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置