[发明专利]一种避免网络连接失败后重复抓取分页内容的方法在审
申请号: | 201810483679.2 | 申请日: | 2018-05-21 |
公开(公告)号: | CN108710683A | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 陈林;张来卿;庞严冬 | 申请(专利权)人: | 珠海横琴盛达兆业科技投资有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F8/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519031 广东省珠海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及SPRING BOOT爬虫技术领域,特别涉及一种避免网络连接失败后重复抓取分页内容的方法。本发明方法如下:1、创建主副两张表,主表用于保存标题、链接及链接对应的分页总页数、当前页数等,副表用于保存分页列表、链接及主表ID等;2、使用爬虫工具定时抓取1中所述的内容,保存到主表中;3、加载主表内容,然后以当前页数开始,总页数为结束,进行循环,根据标题链接与循环值拼接分页URL;4、抓取分页内容时与从副表中读取的数据对比,相同则跳过,继续抓取下一行内容;5、最后把分页的当前页数替换掉主表中的,这样下次抓取的分页就不会重复。本发明解决了网络连接失败后重新启动定时器抓取每个分页内容时容易重复抓取的问题。 | ||
搜索关键词: | 抓取 分页 主表 分页内容 网络连接 链接 页数 重复 总页数 副表 保存 失败 定时器 读取 标题链接 爬虫工具 爬虫技术 数据对比 加载 跳过 拼接 替换 创建 | ||
【主权项】:
1.一种避免网络连接失败后重复抓取分页内容的方法,其特征在于:一、创建主副两张表,主表用于保存标题、链接及链接对应的分页总页数、当前页数等,副表用于保存分页列表、链接及主表ID等;二、使用爬虫工具定时抓取一中所述的内容,保存到主表中;三、加载主表内容,然后以当前页数开始,总页数为结束,进行循环,根据标题链接与循环值拼接分页URL;四、抓取分页内容时与从副表中读取的数据对比,相同则跳过,继续抓取下一行内容;五、最后把分页的当前页数替换掉主表中的,这样下次抓取的分页就不会重复;从而解决了网络连接失败后重新启动定时器抓取每个分页内容时容易重复抓取的问题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海横琴盛达兆业科技投资有限公司,未经珠海横琴盛达兆业科技投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810483679.2/,转载请声明来源钻瓜专利网。