[发明专利]一种爬虫系统及其方法有效
申请号: | 201410259561.3 | 申请日: | 2014-06-12 |
公开(公告)号: | CN104008190B | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 于权 | 申请(专利权)人: | 江苏敏行信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京钟山专利代理有限公司32252 | 代理人: | 戴朝荣 |
地址: | 210012 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 爬虫 系统 及其 方法 | ||
技术领域
本发明属于网络通信技术领域,具体涉及其一种爬虫系统及其方法。
背景技术
目前通过http协议的last-modified来判断一个网站的网页是否更新,由此可以控制爬虫是否继续爬取网页内容。但对于动态网站或者不规范的网站,该值一般为访问时间,所以无法通过此值来控制爬虫是否继续爬取网页内容,这样就极大地限制了爬虫的使用效率。
发明内容
本发明的目的提供一种爬虫系统及其方法,包括带有用于动态网页的爬虫系统的爬虫节点,爬虫节点同互联网相连接,所述的互联网中包含有网站服务器,所述的网站服务器中包含有带有频道的网站,所述的爬虫节点中还包括有浏览器、用于采集结果的数据库和频道库,所述的网站服务器中还包含有频道列表信息。这样的结构结合其方法避免了现有技术中无法通过访问时间的值来控制爬虫是否继续爬取网页内容这样就极大地限制了爬虫的使用效率的缺陷。
为了克服现有技术中的不足,本发明提供了一种爬虫系统及其方法的解决方案,具体如下:
一种爬虫系统,包括带有用于动态网页的爬虫系统1的爬虫节点2,爬虫节点2同互联网3相连接,所述的互联网3中包含有网站服务器4,所述的网站服务器4中包含有带有频道的网站,所述的爬虫节点2中还包括有浏览器7、用于采集结果的数据库6和频道库5,所述的网站服务器4中还包含有频道列表信息。
所述的频道库5包含有每个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期。
所述的频道列表信息包括有发布日期条目。
所述的爬虫系统的方法,步骤如下:
步骤1:启动爬虫节点2中的用于动态网页的爬虫系统1对每个网站服务器4中的网站及频道进行统一编码,每个网站的每个频道都存在唯一标识;
步骤2:用于动态网页的爬虫系统1再从频道库中提取一个频道的起始URL及该频道信息的最近爬取时频道信息的最后发布日期,并将该频道信息的最近爬取时频道信息的最后发布日期减去一天;
步骤3:用于动态网页的爬虫系统1对该频道所在的网站服务器4发起Http请求;
步骤4:该频道所在的网站服务器4接收到该Http请求后,把该频道列表信息发送回爬虫节点2,用于动态网页的爬虫系统1就取得该频道列表信息;
步骤5:用于动态网页的爬虫系统1对该频道列表信息进行分析,如果对应的发布日期条目中存在发布日期,则直接使用该频道列表信息的每条信息的发布日期与该频道的减去一天后的最后发布日期比较,如果晚于最后发布日期,则将该URL信息加入到任务信息中;
步骤6:如果本页列表中最后一条信息不早于最后发布日期,用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行;
步骤7:如果本页列表中最后一条信息早于该频道的减去一天后的最后发布日期,则该爬虫任务结束;
步骤8:如果该频道列表信息不存在发布日期这样能够绝对定位的标识,:用于动态网页的爬虫系统1则分析确定该频道列表信息的条目数N,以及该频道列表信息中的每个条目的标题信息,以此形成标题集合{title0,title1, title2…titltN},其中title表示标题信息,然后从用于采集结果的数据库6中按照采集时间顺序查找title0及后续N条数据标题的数据库集合{title0db,title1 db, title2 db …titltN db},如果标题集合和数据库集合这两个集合的散列值相同,则结束爬取任务;如果标题集合和数据库集合这两个集合的散列值不同,则用于动态网页的爬虫系统1则对该频道所在的网站服务器4发起针对下一页的http请求,返回步骤4中执行。
应用本发明上述方案,通过控制爬虫是否继续爬取网页内容,这样就极大地提高了爬虫的使用效率。
附图说明
图1为本发明的爬虫系统的结构示意图。
具体实施方式
本发明爬虫关心的主题内容为列表及列表对应的具体信息。在爬取时,主要通过列表作为爬取的入口,通过下一页来获取更多信息。因此,通过列表信息可以控制爬虫的爬取任务。对于动态网页,信息的更新主要体现在列表信息的变化。为了更好的阅读体验,信息一般以时间倒序的方式来展现。随着信息的更新,原本展现在第一页的信息会变为在第二页展现。
下面结合附图对发明内容作进一步说明:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏敏行信息技术有限公司,未经江苏敏行信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410259561.3/2.html,转载请声明来源钻瓜专利网。