[发明专利]基于Hadoop的分布式搜索引擎构建方法无效

专利信息
申请号: 201210408753.7 申请日: 2012-10-24
公开(公告)号: CN102915365A 公开(公告)日: 2013-02-06
发明(设计)人: 陈国庆;杨浩 申请(专利权)人: 苏州两江科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 苏州创元专利商标事务所有限公司 32103 代理人: 范晴
地址: 215123 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 hadoop 分布式 搜索引擎 构建 方法
【说明书】:

技术领域

发明属于海量数据处理技术领域,具体涉及一种基于Hadoop的分布式搜索引擎构建方法。

背景技术

随着互联网的迅猛发展,人们已经越来越依赖网络来获取信息,搜索引擎的出现在人们与海量网络信息之间架起了一道桥梁。然而,随着网络用户的激增和网络信息呈指数性增长,网络流量急增,传统的集中式搜索引擎出现了瓶颈。以Internet上产生的数据为例,在Facebook公司,每天处理的新数据量超过20TB,随着Facebook用户的不断增加以后要处理的数据会变的更加庞大。面对着如此海量传统的存储数据,分布式存储正是为解决这些问题。

Google在这方面的研究处于领先地位,在Google的发展过程中,用户的搜索需求是与日俱增的,Google不是靠购买大量昂贵的服务器资源满足大量的搜索需求,而是根据需求量来添加。Google使用自己的分布式存储文件系统GFS,MapR-educe以及BigTable分布式数据库,只需要廉价的linuxPC机组成集群就能处理各种用户需求。

传统的搜索引擎采用的索引表是通过Lucene(全文检索引擎工具包)建立的。由于Lucene建立索引表时不支持集群环境,所以对大量文本建立索引将变得非常耗费时间。Hadoop是一个高效、可靠和可扩展的开源分布式计算平台,能非常高效分布式处理海量数据。随着数据量的增加,Hadoop集群相比于单机,其节省的时间量越来越大。本发明因此而来。

发明内容

本发明目的在于提供一种基于Hadoop的分布式搜索引擎构建方法,解决了现有技术中海量数据进行搜索时,会耗费大量的时间等问题。

为了解决现有技术中的这些问题,本发明提供的技术方案是:

一种基于Hadoop的分布式搜索引擎构建方法,其特征在于所述方法包括以下步骤:

(1)通过Lucene分词处理本地海量文件,形成文件块;

(2)通过Map-Reduce进行数据分解处理,获得key=关键字和value=文件名的输出键值对<key,value>,构建关键字和文件名列表相关的索引文件;

(3)将关键字和文件名列表相关的索引文件存储到HBase数据库中。

优选的,所述方法具体按照如下步骤进行:

(1)通过Lucene分词处理本地海量文件,将逐行读取文件块并将行号及该行内容映射为初始键值输入,采用Map函数对键值部分进行分离处理,提取关键字、文件绝对路径,形成中间键值对<key,value>;

分离处理在Map函数处理中:

Map函数提供四个形参分别为key1,value1,key2,value2。其中(key1,value1)作为map的输入参数,而(key2,value2)对应map的输出参数,也是Reduce函数的输入参数(key2,value2)。

作为Map的输入参数,(1)key1对应的文件内容每行行号偏移量的输入但不做处理,把文件内容进行分词后形成的关键字词直接作为Map输出参数key2,(2)value对应文件的内容找出其对应文件的绝对路径,作为Map的输出参数value2;(3)将Map输出参数(key2,value2),组成中间键值对<key,value>作为Reduce的输入参数(key2,value2)。

分词就是指将一个完整的句子划分成一个个词条(Token)的过程。尽管每种语言都要进行分词,但是英文可以利用空格作为天然的分隔符。然而对于中文来说,分词的情况要复杂得多。

中文分词在中文搜索引擎领域极其重要。基于字符串匹配的分词方法是将待分析的汉字串与词典进行匹配,若匹配成功,则分出一个词。假设有如下文档:doc1(中国在亚洲)doc2(心中有梦想)doc3(中国很强大)doc4(中国在发展),使用非单字分词来建立索引。当用户输入“中国”作为查询词时,对于非单字分词将经历以下过程:(1)进行字符串与词典词语进行匹配可以得出,“中国”,“梦想”,“亚洲”,“发展”,“强大”等词语。(2)查索引表得包含“中国”词的文档集合为A(doc1、doc3、doc4)。(3)直接就可以得出中国对应文档集合为A(doc1、doc3、doc4)。

分词效果还影响到查询结果和用户的期望的匹配程度,可以通过基于字符串匹配,机器模拟人对语言的理解,以及统计的分词方法进行结合,相互补充的“复合分词法”。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州两江科技有限公司,未经苏州两江科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210408753.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top