[发明专利]一种通过爬虫状态机管理爬虫的方法及装置在审
申请号: | 201711105662.5 | 申请日: | 2017-11-10 |
公开(公告)号: | CN107943866A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 郭建辉 | 申请(专利权)人: | 天脉聚源(北京)传媒科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/48 |
代理公司: | 北京尚伦律师事务所11477 | 代理人: | 张亮 |
地址: | 100007 北京市东城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种通过爬虫状态机管理爬虫的方法及装置。所述通过爬虫状态机管理爬虫的方法,包括根据预设的爬虫规则生成爬虫状态机;将爬虫工作分解为多个阶段;运行所述各个阶段的爬虫工作对应的爬虫任务;在当前阶段的爬虫任务结束后,更新所述爬虫状态机的当前阶段的状态;在所述爬虫状态机的当前阶段满足预设的完成条件时,运行下一个阶段的爬虫工作对应的爬虫任务。本发明使得用户可直观的观测到爬虫的运行情况,也方便了相关的技术人员针对性的调整爬虫策略,从而提升了用户和技术人员的使用体验。 | ||
搜索关键词: | 一种 通过 爬虫 状态机 管理 方法 装置 | ||
【主权项】:
一种通过爬虫状态机管理爬虫的方法,其特征在于,包括:根据预设的爬虫规则生成爬虫状态机;将爬虫工作分解为多个阶段;运行所述各个阶段的爬虫工作对应的爬虫任务;在当前阶段的爬虫任务结束后,更新所述爬虫状态机的当前阶段的状态;在所述爬虫状态机的当前阶段满足预设的完成条件时,运行下一个阶段的爬虫工作对应的爬虫任务。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天脉聚源(北京)传媒科技有限公司,未经天脉聚源(北京)传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711105662.5/,转载请声明来源钻瓜专利网。