[发明专利]一种信息收集方法和系统有效
申请号: | 200910210140.0 | 申请日: | 2009-10-27 |
公开(公告)号: | CN102053979A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | 周雅倩;姜孟晋;何一鸣;谭卫国 | 申请(专利权)人: | 华为技术有限公司;复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻 |
地址: | 518129 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 收集 方法 系统 | ||
技术领域
本发明涉及互联网领域,尤其涉及一种基于特定场所和事件的网站收集方法和系统。
背景技术
随着互联网的快速发展和信息需求的变化,适用于所有用户的综合性的通用搜索引擎已经不能满足用户对某个领域和面向特定主题的查询需求。面向主题的信息服务的目的是提供分类精确、数据全面、更新及时的搜索服务,这就对搜索引擎中负责收集网页的网络爬虫提出了新的要求,主题爬虫随之应运而生。主题爬虫抓取的内容只限于特定的主题或专门领域,在抓取的过程中无须对整个网络进行遍历,只需选择与主题相关的页面进行访问。主题爬虫考虑了页面与主题的相关性,但忽略了网页之间的冗余性。
在特定的时间,某些特定公共场所里聚集的人群很可能具有相似的兴趣爱好,而给特定的地方的人发送短信息是个成熟的技术,所以这是可以分众投放广告的一个机会。例如某天在某个体育馆举办某个流行歌手的演唱会,来观看演出的人中应该有一大批对流行音乐比较感兴趣,比较时尚,若对这批人投放时尚音乐手机的广告是个不错的选择。所以如何预先收集到某些特定公共场所的演出、比赛、其它活动的信息对有目标的广告投放应该是很有价值的。这可以归结为一个基于特定场所的事件信息获取问题。
对于某个特定场所而言,事件检索的目的是找到所有与这个场所相关的网页,而目前的WEB(网络)搜索引擎一般较多相关性而较少考虑查全性。若直接用场所名称到WEB上检索,一方面得到的网页往往会出现成百上千,相互之间既有很多相似乃至冗余的地方,逐一进行事件抽取既浪费时间也没有必要;另一方面特定场所的名称往往并不是唯一的,有些包含事件的网页可能用单一的名称无法检索到。采用根据场所名称来生成查询和进行扩展的方法来检索包含事件信息的网页也行不通,因为根据场所名称或场所名称+时间的方法在WEB搜索引擎中基本无法在前几页返回我们需要的网页。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:现有技术存在一种基于URL(Uniform Resource Locator,统一资源定位符)模式的重抓取主题爬虫,通过一组种子URL,收集一些相关和不相关的网页,并以此总结出相关和不相关的URL模式,在以后的网页抓取中根据这些相关和不相关的URL模式来进行导航,但其收集的相关网站的网页信息可能存在大量冗余信息,造成网络负载量大。
发明内容
本发明实施例提供一种信息收集方法和系统,从而降低相关网站的网页之间可能存在大量冗余信息。
一方面,本发明实施例提供了一种信息收集方法,上述方法包括:获取特定场所信息和事件信息;根据上述特定场所信息和事件信息,获取候选网站;下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式;根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。
另一方面,本发明实施例提供了一种信息收集系统,上述系统包括:网站扩充子系统,用于获取特定场所信息和事件信息,并根据上述特定场所信息和事件信息,获取候选网站;URL模式学习子系统,用于下载上述候选网站的网页;利用上述事件信息对上述候选网站的网页进行过滤,获取包含上述事件信息的网页;对包含上述事件信息的网页进行URL模式学习,获取候选URL模式;利用上述候选URL模式,对上述候选网站的网页再次进行过滤,获取匹配上述候选URL模式的候选网页集合;URL模式选取子系统,用于从上述候选网页集合中,获取大于或等于预置覆盖频率阈值的URL模式,并根据上述大于或等于预置覆盖频率阈值的URL模式获取上述URL模式所属的网站信息。
上述技术方案具有如下有益效果:因为首先利用种子网站扩充网站规模,进而根据网页相似性学习URL模式,最后进行URL模式选择的网站信息收集的技术手段,从而降低相关网站的网页之间可能存在大量冗余信息,从而使网络负载量减小。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种基于特定场所和事件的信息收集方法流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;复旦大学,未经华为技术有限公司;复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910210140.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种字幕播出方法和装置
- 下一篇:再生能源供电系统及其供电方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置