[发明专利]一种房地产信息快速搜索方法有效

专利信息
申请号: 201410060697.1 申请日: 2014-02-21
公开(公告)号: CN103886020B 公开(公告)日: 2017-04-05
发明(设计)人: 袁友伟;李勇;俞东进;鄢腊梅;杨威 申请(专利权)人: 杭州电子科技大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/20
代理公司: 杭州君度专利代理事务所(特殊普通合伙)33240 代理人: 杜军
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 房地产 信息 快速 搜索 方法
【说明书】:

技术领域

发明属于搜索引擎技术领域,特别涉及一种基于垂直搜索引擎的房地产信息快速搜索方法。

背景技术

由于互联网的信息急剧增长,截至2013年10月,我国共有294万个网站,而网页数量则超过1000亿。在如此浩瀚的数据海洋中,人们发现如果获取自己想要的信息就有点心有余而力不足。而搜索引擎的出现,无疑给用户带来很大的便利,用户想要了解什么信息,只要通过搜索引擎,输入关键字,就能获得大量的自己所需要的信息。但是,通用搜索引擎对于数据量剧增的互联网来说,用户体验越来越差,理由有两方面:一方面是因为通用搜索引擎返回的结果很多,有时甚至超过1亿个结果,用户不可能将1亿个结果全都查看,只可能看排名靠前的几个结果;另一方面,现阶段的通用搜索引擎覆盖面广,搜索范围包含整个互联网的很大一部分信息,从而使得信息更新不及时。

房价过高问题是民生的重中之重。最近几年来,房价越来越高,而且没有一点下降的趋势。正因如此,房地产领域近年来已经成为人们重点关注的热门话题,该领域关系到老百姓的切身利益,也是国家的重点关注对象。由于这些问题的出现,万维网中出现了大量的关于房地产方面的信息,其规模与日俱增。就目前万维网中存在海量信息的情形来说,用户要想从这些数据中找到自己想要的信息非常困难。为此,很有必要通过垂直搜索引擎技术建立一个房地产信息快速搜索系统。

发明内容

本发明目的在于:针对现有通用搜索引擎不足,提出了一种基于垂直搜索引擎技术的房地产信息搜索方法。本发明的具体步骤如下:

第一步,将链接聚类与隧道技术应用到Shark-Search算法中实现聚焦网络爬虫。通过聚焦网络爬虫对英特网中的所有房地产信息进行抓取,然后将抓取的信息存储至本地的文件系统。

第二步,对页面信息进行处理。通过聚焦网络爬虫抓取的网页保存在本地的文件系统后并不能直接使用,需要经过一定的处理操作。由于HTML是一种半结构化文件,因此需要进行预处理。所谓半结构化,就是类似HTML文件的标签及标签包含的内容,具有一定的结构性,但是其结构却不太明确,如<title>垂直搜索引擎的应用研究</title>,表示titile为“垂直搜索引擎的应用研究”的HTML网页。而结构化就是像关系型数据库那样,有字段名和字段值相对应的格式。将网页从半结构化变成结构化信息后,还需要进行噪音信息的处理,噪音信息即一些与主题内容无关的信息,如与主题无关的广告内容、链接、图片等信息。之后将有用的信息进行抽取,保存为结构化信息。

第三步,对房地产信息进行中文分词处理。中文分词主要在两个方面进行处理:第一,对于从数据库中获取的文本数据需要进行中文分词操作;第二,对于用户输入的关键字进行中文分词操作,以便于搜索操作。这两个方面处理的中文分词必须采用同一个中文分词系统,本发明主要是利用HMM结合词性标注增加了对房地产命名识别的功能,从而为后续的用户搜索提供了更好的结果排序集。

第四步,对中文分词后的信息进行索引。为了便于搜索,在文本信息进行中文分词操作后,需要建立索引。由于本发明使用Hibernate进行持久层操作,因此采用Hibernate-Search对中文分词后的信息进行索引操作。而Hibernate-Search底层采用优秀的全文检索工具Lucene实现的,在索引方面具有很强的处理能力。

第五步,由用户检索模块对用户查询内容进行响应。查询需要用户在查询文本框中输入搜索关键字,然后系统对用户输入的字符串进行中文分词操作,将系统返回的结果进行排序操作。结果排序操作由Hibernate-Search实现,由于Lucene具有优秀的评分策略,因此能够返回令用户满意的搜索结果。用户界面的好坏直接影响到用户的使用体验,本发明采用富客户端应用框架Flex实现用户界面,用户可以在搜索文本框中输入需要搜索的关键字进行搜索操作。

本发明共涉及到五个模块:聚焦网络爬虫模块、页面处理模块、中文分词模块、索引模块以及用户检索模块。

本发明具有的有益效果是:利用该方法形成具有搜索响应速度快,信息准确率高,稳定性好等特点,用户能够根据自己输入的关键词快速搜索到自己想要的房地产信息。

具体实施方式

图1是系统的总体架构。

图2是加入链接聚类和隧道技术后的Shark-Search算法流程图。

具体实施方式

图1为本发明系统的总体架构图,系统分为:聚焦网络爬虫、页面处理、中文分词、信息索引和用户检索五个模块。

1.对于聚焦网络爬虫的基本设计方法如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410060697.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top