[发明专利]爬虫系统及方法有效
| 申请号: | 201910835029.4 | 申请日: | 2019-09-05 |
| 公开(公告)号: | CN110516139B | 公开(公告)日: | 2023-07-07 |
| 发明(设计)人: | 宋海伟 | 申请(专利权)人: | 上海携程商务有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;H04L67/1001;H04L67/02;H04M11/06 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
| 地址: | 200335 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 爬虫 系统 方法 | ||
1.一种爬虫系统,其特征在于,所述爬虫系统包括客户端和服务端;所述服务端包括负载均衡服务器、集群服务器;
所述客户端用于根据预设爬取目标和目标网站的访问要求生成爬取参数,并发送所述爬取参数至所述负载均衡服务器;
所述负载均衡服务器用于根据所述爬取参数生成爬虫任务,并分配所述爬虫任务至所述集群服务器;
所述集群服务器用于根据所述爬虫任务爬取所述目标网站的目标数据;所述集群服务器还用于利用抓包工具修改所述爬取参数,去掉或者修改非人工请求的特征,以得到修改后的所述爬取参数,并根据所述修改后的所述爬取参数生成所述爬虫任务。
2.如权利要求1所述的爬虫系统,其特征在于,所述集群服务器包括多个工作服务器,所述负载均衡服务器还用于在所述爬虫任务的数量超过预设数量时生成提示信息,所述提示信息包括提示增加所述工作服务器的数量的信息。
3.如权利要求1所述的爬虫系统,其特征在于,所述集群服务器还用于在接收到所述目标网站的验证码输入请求时,利用自动化测试工具模拟真实用户的输入操作;
和/或,所述集群服务器还用于通过ADSL拨号连接所述目标网站。
4.如权利要求1所述的爬虫系统,其特征在于,所述客户端还用于设置预设时间,并按照所述预设时间发送所述爬取参数至所述负载均衡服务器;
和/或,所述客户端还用于设置爬取方式,所述爬取方式包括网页元素爬取和/或接口爬取,所述爬取参数包括所述爬取方式。
5.如权利要求1所述的爬虫系统,其特征在于,所述服务端还包括监控服务器,所述集群服务器用于根据所述爬虫任务生成过程数据,并所送所述过程数据至所述监控服务器,所述监控服务器用于显示所述过程数据;
和/或,所述监控服务器还用于发送控制命令至所述集群服务器,所述集群服务器用于根据所述控制命令启动或者停止所述爬虫任务。
6.一种爬虫方法,其特征在于,所述爬虫方法包括:
客户端根据预设爬取目标和目标网站的访问要求生成爬取参数,并发送所述爬取参数至负载均衡服务器;
所述负载均衡服务器根据所述爬取参数生成爬虫任务,并分配所述爬虫任务至集群服务器;
所述集群服务器根据所述爬虫任务爬取所述目标网站的目标数据;所述集群服务器还用于利用抓包工具修改所述爬取参数,去掉或者修改非人工请求的特征,以得到修改后的所述爬取参数,并根据所述修改后的所述爬取参数生成所述爬虫任务。
7.如权利要求6所述的爬虫方法,其特征在于,所述集群服务器包括多个工作服务器,所述负载均衡服务器根据所述爬取参数生成爬虫任务的步骤还包括:
所述负载均衡服务器在所述爬虫任务的数量超过预设数量时生成提示信息,所述提示信息包括提示增加所述工作服务器的数量的信息。
8.如权利要求6所述的爬虫方法,其特征在于,所述集群服务器根据所述爬虫任务爬取所述目标网站的目标数据步骤包括:
所述集群服务器在接收到所述目标网站的验证码输入请求时,利用自动化测试工具模拟真实用户的输入操作;
和/或,所述集群服务器根据所述爬虫任务爬取所述目标网站的目标数据步骤之前包括:
所述集群服务器通过ADSL拨号连接所述目标网站。
9.如权利要求6所述的爬虫方法,其特征在于,所述发送所述爬取参数至负载均衡服务器的步骤包括:所述客户端设置预设时间,并按照所述预设时间发送所述爬取参数至所述负载均衡服务器;
和/或,所述客户端还设置爬取方式,所述爬取方式包括网页元素爬取和/或接口爬取,所述爬取参数包括所述爬取方式。
10.如权利要求6所述的爬虫方法,其特征在于,所述集群服务器根据
所述爬虫任务爬取所述目标网站的目标数据的步骤还包括:
所述集群服务器根据所述爬虫任务生成过程数据,并所送所述过程数据至监控服务器;
所述监控服务器显示所述过程数据;和/或,所述监控服务器发送控制命令至所述集群服务器;所述集群服务器根据所述控制命令启动或者停止所述爬虫任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携程商务有限公司,未经上海携程商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910835029.4/1.html,转载请声明来源钻瓜专利网。





