[发明专利]一种新闻评论页面的爬取方法及系统有效
| 申请号: | 200910242055.2 | 申请日: | 2009-12-03 |
| 公开(公告)号: | CN102087648A | 公开(公告)日: | 2011-06-08 |
| 发明(设计)人: | 严华梁;刘伟;杨建武;万小军;肖建国 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司;北京北大方正电子有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
| 地址: | 100871*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 新闻 评论 页面 方法 系统 | ||
技术领域
本发明属于信息检索和数据集成技术领域,具体涉及一种新闻评论页面的爬取方法及系统。
背景技术
Web自上世纪90年代初诞生以来便以惊人的速度发展,到目前Web已经成为了世界上最大的信息仓库,覆盖了现实世界的各个领域,成为了人类工作生活获取信息主要途径。Web信息的发布主要是以网页的形式实现,据最新的估计,Web中网页的数量已经超过了550个billion(1个billion等于10亿)。显然手工方式的访问已经无法满足人们信息获取的需要,为了让人们更有效地访问和利用Web中海量的信息,自上世纪90年代中期开始研究者们便开始了Web信息搜索和集成领域的研究,同时产业界也出现了各种Web信息搜索和集成相关的应用,比如垂直搜索引擎、舆情分析等。这些应用实现的一个必要步骤就是先获取所需信息所在的页面然后将所需的信息从结构化程度很差的网页中准确地抽取出来。
Web中的新闻评论是指普通浏览者在具有评论发布权限的新闻网站针对某一新闻事件或人物等发布的评论,是目前人们在互联网上非常重要的信息获取来源。新闻评论信息在Web信息中占有较大的比例。基于新闻评论信息产生了许多重要的应用和研究课题,主要包括以下两个方面:
1.评论搜索引擎:面向评论的垂直搜索引擎,从数量众多的用户具有评论发布权限的网站中获取并集成评论,可以为人们提供即时全面的对特定新闻事件或人物的评论搜索。为了保证新闻评论信息的及时性和全面性,必然要能够对大量的评论页面及时进行处理,处理的前提当然得先获取新闻评论页面。
2.舆情分析:是最近十年来自然语言处理和信息检索领域的热点研究课题。其目标是从连续的记录中识别出系统未知的话题以及与该话题相关的报道。其主要信息来源之一就是Web中发布的新闻评论信息。
由上面对应用的介绍可以看出,新闻评论信息是它们非常重要的数据来源,获得新闻评论信息的前提是获取到新闻评论页面,但由于Web中新闻网站数量众多,而且新闻网站中包含有各种各样的网页,必然会严重影响对信息处理的效率和检索的质量。因此,对新闻评论页面的自动识别是许多重要应用迫切需要解决的关键技术问题之一,具有非常重要的实际意义和广阔的应用前景。目前,现有技术中还不存在新闻评论页面的爬取方法或系统。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提供一种新闻评论页面的爬取方法及系统。该方法及系统能够有效地从新闻网站中自动爬取出新闻评论页面。
为了实现上述目的,本发明采用的技术方案如下:
一种新闻评论页面的爬取方法,包括以下步骤:
(A)获取新闻网站中的页面;
(B)从获取的页面中识别出新闻评论页面;
(C)获取新闻评论页面中的翻页链接,并根据翻页链接获取其他新闻评论页面。
一种新闻评论页面的爬取系统,包括用于从新闻网站中获取页面的页面获取装置;用于从页面获取装置获取的页面中识别出新闻评论页面的新闻评论页面识别装置;以及用于获取新闻评论页面识别装置识别出的新闻评论页面的翻页链接,并根据翻页链接获取其他新闻评论页面的新闻评论页面获取装置。
本发明所述方法及系统,能够从新闻网站的网页中自动爬取出新闻评论页面,而且爬取的速度快,爬取的新闻评论页面全面。
附图说明
图1是本发明所述新闻评论页面爬取系统的优选实施方式结构框图;
图2是采用图1所示系统爬取新闻评论页面的方法流程图;
图3是具体实施方式中获取页面的一种具体实现方法流程图;
图4是具体实施方式中从页面中识别新闻评论页面的具体实现方法流程图;
图5是具体实施方式中获取新闻评论页面的翻页链接,并根据翻页链接获取其他新闻评论页面的具体实现方法流程图。
具体实施方式
下面结合具体实施方式和附图,对本发明进行详细描述。
图1出示了本发明所述新闻评论页面爬取系统的优选实施方式结构。该系统包括页面获取装置11,与页面获取装置11连接的新闻评论页面识别装置12,以及与新闻评论页面识别装置12连接的翻页链接获取装置13。
页面获取装置11用于从新闻网站中获取页面。新闻评论页面识别装置12用于从页面获取装置11获取的页面中识别出新闻评论页面。翻页链接获取装置13用于获取新闻评论页面识别装置12识别出的新闻评论页面的翻页链接,并根据翻页链接获取其他新闻评论页面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司;北京北大方正电子有限公司,未经北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910242055.2/2.html,转载请声明来源钻瓜专利网。





