[发明专利]一种抓取网络平面媒体的网页内容的方法及系统有效
申请号: | 201310344367.0 | 申请日: | 2013-08-08 |
公开(公告)号: | CN103399933A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 张思亮;崔世起;崔庆君 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抓取 网络 平面媒体 网页 内容 方法 系统 | ||
技术领域
本发明涉及信息检索领域,特别是涉及一种抓取网络平面媒体的网页内容的方法及系统。
背景技术
互联网网页信息每天都在快速地增长,为了能够让搜索引擎快速、全面地索引网页信息,网络爬虫需要每天抓取大量的网页。由于网页的种类繁多,所以对于网页内容的抓取方式也不尽相同。
本申请主要涉及对于网络平面媒体的网页内容的抓取。所谓平面媒体是指报纸、杂志等传统媒体。报纸、杂志等传统媒体通过单一的视觉、单一的维度传递信息,相对于电视、互联网等媒体通过视觉、听觉等多维度的传递信息,而称作平面媒体。随着网络的发展,这些传统意义上的平面媒体也纷纷开设了相应的网站。
网络平面媒体与通常的网页相比,平面媒体的更新周期长,例如有些报刊为周刊,则其更新周期为一周,有些杂志为月刊,则其更新周期为一个月。此外,网络平面媒体与通常的网页相比,还具有更新量大,更新时间不确定等特点。
由于网络平面媒体的上述特点,现有技术中,抓取网络平面媒体的网页内容的方法主要是,通过抓取平媒站点首页的跳转,跳转到最近一期更新的数字平媒,从而实现局部覆盖。
但是,现有技术中方法存在如下缺点。一个缺点是数据覆盖不完全。以京郊日报电子版http://jjrb.bjd.com.cn/html/2013-05/31/node_62.htm为例:用来关联不同日期发表的平媒的“上一期”、“下一期”链接完全不可用。如果前一天的平媒数据与当天数据同时在今天发布出来,现有方法将无法覆盖到前一天的平媒数据。另一个缺点是抓取效率低,资源消耗大。现有技术中,抓取到一次页面跳转也会产生一次抓取开销。当网页内容没有更新时,就会造成一次无用的抓取,浪费硬件资源。
发明内容
本发明的目的是提供一种抓取网络平面媒体的网页内容的方法及系统,可以抓取到更加全面的数据,并且提高抓取效率。
为实现上述目的,本发明提供了如下方案:
一种抓取网络平面媒体的网页内容的方法,包括:
获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;
根据所述可用URL信息生成所述网络平面媒体的URL模板;
确定需要抓取的所述网络平面媒体的更新时间信息;
根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;
抓取所述第一URL对应的网页内容。
可选的,还包括:
判断所述第一URL对应的网页内容是否抓取成功,得到第一判断结果;
当所述第一判断结果为是时,对所述第一URL对应的网页内容进行深度抓取;
当所述第一判断结果为否时,停止抓取。
可选的,所述确定需要抓取的所述网络平面媒体的更新时间信息,包括:
查询抓取记录;所述抓取记录中记录有每次成功抓取对应的时间信息;
获取当前的时间信息以及所述网络平面媒体的更新周期;
确定所述当前的时间信息之前,所述网络平面媒体中尚未抓取的网页内容对应的时间信息。
可选的,还包括:
判断需要抓取的所述网络平面媒体的更新时间信息中,是否存在超过预设时间仍未抓取成功的超时网页内容;
停止抓取所述超时网页内容。
可选的,所述方法还包括:
获取抓取失败的次数;
判断抓取失败的次数是否大于预设次数,得到第二判断结果;
当所述第二判断结果为是时,重新获取所述网络平面媒体的第二可用URL信息;
根据所述第二可用URL信息重新生成所述网络平面媒体的URL模板。
一种抓取网络平面媒体的网页内容的系统,包括:
可用URL信息获取单元,用于获取网络平面媒体的可用URL信息;所述URL信息包含时间信息;
URL模板生成单元,用于根据所述可用URL信息生成所述网络平面媒体的URL模板;
更新时间信息确定单元,用于确定需要抓取的所述网络平面媒体的更新时间信息;
第一URL构造单元,用于根据所述URL模板以及所述更新时间信息构造所述网络平面媒体的第一URL;
网页内容抓取单元,用于抓取所述第一URL对应的网页内容。
可选的,还包括:
第一判断单元,用于判断所述第一URL对应的网页内容是否抓取成功,得到第一判断结果;
深度抓取单元,用于当所述第一判断结果为是时,对所述第一URL对应的网页内容进行深度抓取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310344367.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种非对称结构双谐振微波窄带滤波器
- 下一篇:一种密封式铅酸蓄电池