[发明专利]一种避免网络连接失败后重复抓取分页内容的方法在审
申请号: | 201810483679.2 | 申请日: | 2018-05-21 |
公开(公告)号: | CN108710683A | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 陈林;张来卿;庞严冬 | 申请(专利权)人: | 珠海横琴盛达兆业科技投资有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F8/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 519031 广东省珠海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 分页 主表 分页内容 网络连接 链接 页数 重复 总页数 副表 保存 失败 定时器 读取 标题链接 爬虫工具 爬虫技术 数据对比 加载 跳过 拼接 替换 创建 | ||
1.一种避免网络连接失败后重复抓取分页内容的方法,其特征在于:一、创建主副两张表,主表用于保存标题、链接及链接对应的分页总页数、当前页数等,副表用于保存分页列表、链接及主表ID等;二、使用爬虫工具定时抓取一中所述的内容,保存到主表中;三、加载主表内容,然后以当前页数开始,总页数为结束,进行循环,根据标题链接与循环值拼接分页URL;四、抓取分页内容时与从副表中读取的数据对比,相同则跳过,继续抓取下一行内容;五、最后把分页的当前页数替换掉主表中的,这样下次抓取的分页就不会重复;从而解决了网络连接失败后重新启动定时器抓取每个分页内容时容易重复抓取的问题。
2.根据权利要求1所述的基于SPRING BOOT平台的一种避免网络连接失败后重复抓取分页内容的方法,其特征在于:每次网络连接失败后,再次抓取时都从失败后的那一页开始抓取,并且每次抓取分页列表时都与数据库中的内容进行对比,不相同时才开始下一行的抓取;所述的方法具体包括如下步骤:
步骤一、创建主副两张表,其中主表用于保存标题、标题的链接及链接对应的分页总页数、当前页数等,副表用于保存分页列表信息、列表的链接及主表的ID等;
步骤二、在项目中配置Quartz定时器,设定一个时间,定时调用爬虫工具抓取步骤一中所述的内容,把其保存到主表中;
步骤三、定义分页查询任务,从数据库中查询出主表的内容,然后以当前页数为开始值,总页数为结束值,进行循环,在循环体内根据标题链接与循环值拼接出分页URL;
步骤四、加载分页URL,使用爬虫工具获取每个列表的链接,并与从副表中读取的当前页的链接进行对比,相同就跳过,然后继续抓取下一行内容;
步骤五、保存完抓取的分页内容后,把当前的页数保存到主表中,替换掉原来的当前分页数,网络异常后就会从这个页数开始,避免了从第一页开始重复抓取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海横琴盛达兆业科技投资有限公司,未经珠海横琴盛达兆业科技投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810483679.2/1.html,转载请声明来源钻瓜专利网。