[发明专利]爬虫程序自动获取网络代理服务器的方法、装置、计算机存储介质及终端设备在审

专利信息
申请号: 201810645506.6 申请日: 2018-06-21
公开(公告)号: CN108924199A 公开(公告)日: 2018-11-30
发明(设计)人: 曾兴华;邵雷 申请(专利权)人: 中山英迈锐信息技术有限公司
主分类号: H04L29/08 分类号: H04L29/08;G06F17/30
代理公司: 北京众达德权知识产权代理有限公司 11570 代理人: 刘杰
地址: 528400 广东省中山市火*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 代理服务器 自动获取 网络代理服务器 爬虫程序 终端设备 计算机可读存储介质 互联网协议地址 存活 有效的代理 排序 服务器 计算机存储介质 计算机程序 爬虫系统 重复数据 代理 简易 网络 身份
【说明书】:

公开了一种爬虫程序自动获取网络代理服务器的方法、装置、计算机可读存储介质及终端设备,属于计算机程序技术领域。该方法包括以下步骤:获取网络中公开的代理互联网协议地址;获取存活的代理服务器;排除所述网络中公开的代理互联网协议地址和所述存活的代理服务器中的重复数据,得到有效的代理服务器;针对所述有效的代理服务器进行质量排序;所述爬虫程序根据所述存活的代理服务器的质量优劣排序,自动获取网络代理服务器。该装置、计算机可读存储介质及终端设备能够用于实现该方法。其能够提供简易和高效的技术方法自动获取大批量高质量的代理服务器,供爬虫系统模拟出复杂多变的多重身份。

技术领域

发明涉及计算机程序技术领域,特别是涉及一种爬虫程序自动获取网络代理服务器的方法、装置、计算机可读存储介质及终端设备。

背景技术

目前,随着互联网用户的增多,互联网数据呈指数级增长,如何有效地从卷帙浩繁的互联网资源中发现和找到有用的数据日益重要。

现有的爬虫和采集技术方案通常采用定位目标、获取入口、遍历URL(统一资源定位符)、确定数据对象、请求存储的方式实现对数据进行采集和存储。

然而,现有的技术方案存在如下问题:在完成爬虫配置开启采集后,由于每一次的网络请求爬虫都会将自身身份信息发给目标服务器,很容易被采集对象监测到同一节点在短时间内的频繁和大量请求,为了防止系统资源的消耗和数据非正常服务,一般系统都会启用反爬取策略,对同一身份特征的频繁请求做部分限制或彻底封锁。导致爬取效率降低,爬取数据不完整。一般爬虫系统在模拟多重身份方法上采用代理方式,但需要实现准备好代理服务器资源,直接产生经济成本,或增加工作量,造成整体效率降低。

因此,存在如下需求:提供简易和高效的技术方法自动获取大批量高质量的代理服务器,供爬虫系统模拟出复杂多变的多重身份。

发明内容

有鉴于此,本发明提供了一种爬虫程序自动获取网络代理服务器的方法、装置、计算机可读存储介质及终端设备,从而更加适于实用。

为了达到上述第一个目的,本发明提供的爬虫程序自动获取网络代理服务器的方法的技术方案如下:

本发明提供的爬虫程序自动获取网络代理服务器的方法包括以下步骤:

获取网络中公开的代理互联网协议地址;

获取存活的代理服务器;

排除所述网络中公开的代理互联网协议地址和所述存活的代理服务器中的重复数据,得到有效的代理服务器;

针对所述有效的代理服务器进行质量排序;

根据所述存活的代理服务器的质量优劣排序,自动获取网络代理服务器。

本发明提供的爬虫程序自动获取网络代理服务器的方法还可采用以下技术措施进一步实现。

作为优选,所述爬虫程序自动获取网络代理服务器的方法还包括对所述网络中公开的代理互联网协议地址进行维护的步骤。

作为优选,所述爬虫程序自动获取网络代理服务器的方法还包括向用户推送针对所述网络代理服务器的工作效率的可视化报表的步骤。

作为优选,所述获取网络中公开的代理互联网协议地址的方法具体包括以下步骤:

创建以“代理IP”、“代理服务器”为关键词,目标为百度、Google、Bing的搜索引擎站点的爬取任务;

根据所述爬取任务,自动爬取所述搜索引擎列表结果页的前n页的数据内容,其中,n为自定义的正整数;

将所述前n页的数据内容中包含代理互联网协议地址和端口号的字段清洗并存储,得到所述网络中公开的代理互联网协议地址。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山英迈锐信息技术有限公司,未经中山英迈锐信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810645506.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top