[发明专利]基于Hadoop的分布式搜索引擎构建方法无效

申请号：	201210408753.7	申请日：	2012-10-24
公开（公告）号：	CN102915365A	公开（公告）日：	2013-02-06
发明（设计）人：	陈国庆;杨浩	申请（专利权）人：	苏州两江科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	苏州创元专利商标事务所有限公司 32103	代理人：	范晴
地址：	215123 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 hadoop 分布式搜索引擎构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Hadoop的分布式搜索引擎构建方法，其特征在于所述方法包括以下步骤：

（1）通过Lucene分词处理本地海量文件，形成文件块；

（2）通过Map-Reduce进行数据分解处理，获得key=关键字和value=文件名的输出键值对<key，value>，构建关键字和文件名列表相关的索引文件；

（3）将关键字和文件名列表相关的索引文件存储到HBase数据库中。

2.根据权利要求1所述的方法，其特征在于所述方法具体按照如下步骤进行：

（1）通过Lucene分词处理本地海量文件，将逐行读取文件块并将行号及该行内容映射为初始键值输入，采用Map函数对键值部分进行分离处理，提取关键字、文件绝对路径，形成中间键值对<key，value>；

（2）采用reduce函数读取文件的绝对路径，从中分离出文件名作为键值（value），合并具有相同关键字（key）的键值对，统计关键字在与其对应的文件中出现的次数，和文件名一起作为值（value）迭代输出；进行相同关键字合并后，其结果作为Reduce操作的输出键值对<key，value>；

（3）经过MapReduce建立的索引文件存储到HBase中，其中Row Key存储的是查询关键字，value存储的是文件名，关键字在文件中出现的次数统计以及文件内容属性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州两江科技有限公司，未经苏州两江科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210408753.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载