[发明专利]爬虫系统及方法有效
| 申请号: | 201910835029.4 | 申请日: | 2019-09-05 |
| 公开(公告)号: | CN110516139B | 公开(公告)日: | 2023-07-07 |
| 发明(设计)人: | 宋海伟 | 申请(专利权)人: | 上海携程商务有限公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;H04L67/1001;H04L67/02;H04M11/06 |
| 代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
| 地址: | 200335 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 爬虫 系统 方法 | ||
本发明公开了爬虫系统及方法,其中爬虫系统包括客户端和服务端;服务端包括负载均衡服务器、集群服务器;客户端用于根据预设爬取目标和目标网站的访问要求生成爬取参数,并发送爬取参数至负载均衡服务器;负载均衡服务器用于根据爬取参数生成爬虫任务,并分配爬虫任务至集群服务器;集群服务器用于根据爬虫任务爬取目标网站的目标数据。本发明的客户端用户只需要在客户端根据预设爬取目标和目标网站的访问要求设置爬取参数,生成的爬虫任务统一由集群服务器进行处理,使得系统易于维护,减少研发时长,避免重复研发工作量及降低研发成本。
技术领域
本发明涉及信息检索领域,尤其涉及一种爬虫系统及方法。
背景技术
随着网络的迅速发展,互联网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。
网络爬虫,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的网站页面内容,以获取或更新这些网站的内容和检索方式。
目前企业也越来越多的应用到互联网上的信息,但出于成本的考虑,一般是在有具体的业务需求的时候,根据具体的业务需求单独开发其爬取功能,由于各个目标网站的复杂性以及要求不同,一般没有一套通用的爬虫技术方案,往往会浪费大量的时间和人力,并且各个单独开发的爬虫功能重复繁杂,不利于升级维护,且市面上的商用爬虫系统价格高,且针对企业的业务的专业性不强。
发明内容
本发明要解决的技术问题是为了克服现有技术中单独开发的爬虫功能重复繁杂,不利于升级维护,以及现有的爬虫系统成本高、专业性不强的缺陷,提供一种爬虫系统及方法。
本发明是通过下述技术方案来解决上述技术问题:
一种爬虫系统,所述爬虫系统包括客户端和服务端;所述服务端包括负载均衡服务器、集群服务器;
所述客户端用于根据预设爬取目标和目标网站的访问要求生成爬取参数,并发送所述爬取参数至所述负载均衡服务器;
所述负载均衡服务器用于根据所述爬取参数生成爬虫任务,并分配所述爬虫任务至所述集群服务器;
所述集群服务器用于根据所述爬虫任务爬取所述目标网站的目标数据。
优选地,所述集群服务器包括多个工作服务器,所述负载均衡服务器还用于在所述爬虫任务的数量超过预设数量时生成提示信息,所述提示信息包括提示增加所述工作服务器的数量的信息。
优选地,所述集群服务器还用于在接收到所述目标网站的验证码输入请求时,利用自动化测试工具模拟真实用户的输入操作;
和/或,所述集群服务器还用于通过ADSL拨号连接所述目标网站;
和/或,所述集群服务器还用于利用抓包工具修改所述爬取参数,并根据所述修改后的所述爬取参数生成所述爬虫任务。
优选地,所述客户端还用于设置预设时间,并按照所述预设时间发送所述爬取参数至所述负载均衡服务器;
和/或,所述客户端还用于设置爬取方式,所述爬取方式包括网页元素爬取和/或接口爬取,所述爬取参数包括所述爬取方式。
优选地,所述服务端还包括监控服务器,所述集群服务器用于根据所述爬虫任务生成过程数据,并所送所述过程数据至所述监控服务器,所述监控服务器用于显示所述过程数据;
和/或,所述监控服务器还用于发送控制命令至所述集群服务器,所述集群服务器用于根据所述控制命令启动或者停止所述爬虫任务。
一种爬虫方法,所述爬虫方法包括:
客户端根据预设爬取目标和目标网站的访问要求生成爬取参数,并发送所述爬取参数至负载均衡服务器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携程商务有限公司,未经上海携程商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910835029.4/2.html,转载请声明来源钻瓜专利网。





