[发明专利]一种避免网络连接失败后重复抓取分页内容的方法在审

专利信息
申请号: 201810483679.2 申请日: 2018-05-21
公开(公告)号: CN108710683A 公开(公告)日: 2018-10-26
发明(设计)人: 陈林;张来卿;庞严冬 申请(专利权)人: 珠海横琴盛达兆业科技投资有限公司
主分类号: G06F17/30 分类号: G06F17/30;G06F8/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 519031 广东省珠海*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 抓取 分页 主表 分页内容 网络连接 链接 页数 重复 总页数 副表 保存 失败 定时器 读取 标题链接 爬虫工具 爬虫技术 数据对比 加载 跳过 拼接 替换 创建
【说明书】:

发明涉及SPRING BOOT爬虫技术领域,特别涉及一种避免网络连接失败后重复抓取分页内容的方法。本发明方法如下:1、创建主副两张表,主表用于保存标题、链接及链接对应的分页总页数、当前页数等,副表用于保存分页列表、链接及主表ID等;2、使用爬虫工具定时抓取1中所述的内容,保存到主表中;3、加载主表内容,然后以当前页数开始,总页数为结束,进行循环,根据标题链接与循环值拼接分页URL;4、抓取分页内容时与从副表中读取的数据对比,相同则跳过,继续抓取下一行内容;5、最后把分页的当前页数替换掉主表中的,这样下次抓取的分页就不会重复。本发明解决了网络连接失败后重新启动定时器抓取每个分页内容时容易重复抓取的问题。

技术领域

本发明涉及Spring Boot爬虫技术领域,特别涉及一种避免网络连接失败后重复抓取分页内容的方法。

背景技术

在进行网页情报信息抓取时,经常会有各种各样的原因造成连接不上所要抓取的网站,比如抓取的主机发生断网,或者网页所属的服务器重启等。如果不进行一定的技术处理,那每次定时器启动时就会从分页的第一页重新开始抓取,造成数据库中大量信息的重复;为了解决这些问题,需要实现一种能解决重复抓取的功能。

发明内容

本发明解决的技术问题在于提供一种避免网络连接失败后重复抓取分页内容的方法;解决了网络连接失败后重新启动定时器抓取每个分页内容时容易重复抓取的问题。

本发明解决上述技术问题的技术方案是:1、创建主副两张表,主表用于保存标题、链接及链接对应的分页总页数、当前页数等,副表用于保存分页列表、链接及主表ID等;2、使用爬虫工具定时抓取1中所述的内容,保存到主表中;3、加载主表内容,然后以当前页数开始,总页数为结束,进行循环,根据标题链接与循环值拼接分页URL;4、抓取分页内容时与从副表中读取的数据对比,相同则跳过,继续抓取下一行内容;5、最后把分页的当前页数替换掉主表中的,这样下次抓取的分页就不会重复。从而解决了网络连接失败后重新启动定时器抓取每个分页内容时重复抓取的问题。

所述的方法具体包括如下步骤:

步骤一、创建主副两张表,其中主表用于保存标题、标题的链接及链接对应的分页总页数、当前页数等,副表用于保存分页列表信息、列表的链接及主表的ID等;

步骤二、在项目中配置Quartz定时器,设定一个时间,定时调用爬虫工具抓取步骤一中所述的内容,把其保存到主表中;

步骤三、定义分页查询任务,从数据库中查询出主表的内容,然后以当前页数为开始值,总页数为结束值,进行循环,在循环体内根据标题链接与循环值拼接出分页URL;

步骤四、加载分页URL,使用爬虫工具获取每个列表的链接,并与从副表中读取的当前页的链接进行对比,相同就跳过,然后继续抓取下一行内容;

步骤五、保存完抓取的分页内容后,把当前的页数保存到主表中,替换掉原来的当前分页数,若网络异常就会从这个页数开始,避免了从第一页开始重复抓取。

本发明的有益效果:通过主副表的形式,把每次网络连接失败后的分页所属的当前页数保存到主表中,再次抓取的时候,就从失败后的那一页开始抓取,并且每次抓取分页列表时都与数据库中的内容进行对比,不相同时才开始下一行的抓取,从而达到网络连接失败后重新启动定时器抓取分页内容时不会重复的目的。有效解决了网络连接失败后重新启动定时器抓取每个分页内容时容易重复抓取的问题。

附图说明

下面结合附图对本发明进一步说明:

图1为本发明的流程图。

具体实施方式

如图1所示,本发明采用如下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海横琴盛达兆业科技投资有限公司,未经珠海横琴盛达兆业科技投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810483679.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top