[发明专利]一种多站点HTTP访问频度控制方法在审
| 申请号: | 201610920014.4 | 申请日: | 2016-10-21 |
| 公开(公告)号: | CN106656860A | 公开(公告)日: | 2017-05-10 |
| 发明(设计)人: | 于鑫 | 申请(专利权)人: | 天津海量信息技术股份有限公司 |
| 主分类号: | H04L12/863 | 分类号: | H04L12/863;H04L29/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 3000*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 站点 http 访问 频度 控制 方法 | ||
技术领域
本发明专利属于控制领域,尤其涉及一种多站点HTTP访问频度控制方法。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。HTTP访问是提取网络信息的主要方法,随着反爬虫机制的不断加强,控制HTTP访问频度就成为防止网站限制访问的主要手段,但是频度控制就面临着资源的使用效率问题。
目前,在此情况下面临的问题有:1、频度控制非必须:不是每个网站都需要频度控制。2、频度控制互相影响:在原始的下载任务单队列中如果一个任务受到了频度控制,势必会影响后面的任务及时下载。3、频度控制划分问题:一个站点可能会有不同的子域享有单独的频度,多个网站可能会共用一个频度。
发明专利内容
本发明专利提供一种多站点HTTP访问频度控制方法,以解决由于频度控制带来的问题。
一种多站点HTTP访问频度控制方法,包括当接收到下载任务后,则做出频度配置,然后进入下载任务队列,根据下载任务队列轮询队列任务,最后做出下载;在系统线程开始后,从第一个队列的头部读取一个任务,如果记录中有这个任务的频度状态,如果是则判断当前时间任务是否可以执行,如果是,则下载任务,记录结束时间以及等待时间,并从队列中删除此任务,并确认是否继续,如果是,则从下一个队列的头部读取一个任务,并继续查询到任务的频度状态;如果记录中有这个任务的频度状态,如果否,则下载任务记录结束时间以及等待时间,并从队列中删除此任务,并确认是否继续,如果否,则线程结束。
进一步地,频度规则中使用正则来划分频度单元;正则表达式具有极大的灵活性,既可以按照URL的子域划分,也可以由多个域名共同组成一个规则。
进一步地,频度单元队列中,通过指定频度规则使得不同频度单元的任务被划分到了不同的队列。
进一步地,多队列调度中不同频度单元的任务在不同的队列中,由调度程序去查看各个队列的任务是否可以执行。
附图说明
图1为一种多站点HTTP访问频度控制方法系统信息架构图
图2为一种多站点HTTP访问频度控制方法系统处理流程图
具体实施方式
实施例:一种多站点HTTP访问频度控制方法,包括当接收到下载任务后,则做出频度配置,然后进入下载任务队列,根据下载任务队列轮询队列任务,最后做出下载;在系统处理开始后,从第一个队列的头部读取一个任务,如果记录中有这个任务的频度状态,如果是则判断当前时间任务是否可以执行,如果是,则下载任务,记录结束时间以及等待时间,并从队列中删除此任务,并确认是否继续,如果是,则从下一个队列的头部读取一个任务,并继续查询到任务的频度状态;如果记录中有这个任务的频度状态,如果否,则下载任务记录结束时间以及等待时间,并从队列中删除此任务,并确认是否继续,如果否,则线程结束。
频度规则,包含了正则、最小等待时间、最大等待时间。其中正则用来匹配任务的URL,区分不同的频度控制单元,最小等待时间是指任务执行之前所需要等待的最小时间,最大等待时间是指任务执行之前所需要等待的最大时间。频度控制系统中包含了多组频度规则。在收到下载任务时,根据规则中的正则把任务映射到不同的任务队列中。
调度流程,它本身会记录各频度单元的上次下载结束时间和需要等待的时间,它会轮询各个任务队列并判断当前时间下这个任务是否满足需要等待的时间间隔,如果可执行则将任务从队列中取出下载,如果不能执行则轮询下一个任务。调度流程会在任务完成之后记录任务的下载结束时间,并根据频度规则计算出下次任务所需要等待的时间。
其中,频度规则中使用正则来划分频度单元;正则表达式具有极大的灵活性,既可以按照URL的子域划分,也可以由多个域名共同组成一个规则。
其中,频度单元队列中,通过指定频度规则使得不同频度单元的任务被划分到了不同的队列。
其中,多队列调度中不同频度单元的任务在不同的队列中,由调度程序去查看各个队列的任务是否可以执行,从而保证了每个队列的任务都能及时执行,从而最大化的提升资源利用率。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津海量信息技术股份有限公司,未经天津海量信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610920014.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:获取网络芯片WRR最优权值的方法及系统
- 下一篇:一种电子图书推送方法及装置





