[发明专利]资源下载方法、装置、存储介质及电子设备有效
| 申请号: | 202111553042.4 | 申请日: | 2021-12-17 |
| 公开(公告)号: | CN114257598B | 公开(公告)日: | 2023-07-04 |
| 发明(设计)人: | 赵智博 | 申请(专利权)人: | 北京金堤科技有限公司 |
| 主分类号: | H04L67/1008 | 分类号: | H04L67/1008;H04L61/4511;G06F16/955 |
| 代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 温易娜 |
| 地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 资源 下载 方法 装置 存储 介质 电子设备 | ||
本公开涉及一种资源下载方法、装置、存储介质及电子设备,属于信息技术领域,所述方法包括:在目标域名所包括的各个URL地址中,确定处于下载中状态的URL地址的第一数量;将对应所述目标域名的预设数量阈值与所述第一数量进行比较,根据比较结果确定第二数量;在所述第二数量符合预设条件的情况下,根据所述第二数量,在所述目标域名所包括的处于待下载状态的URL地址中,确定目标URL地址,并从所述目标URL地址下载资源。通过设置预设数量阈值,限制目标域名同时处于下载状态的URL地址数量,使得在同一时间针对该域名的服务器的访问请求数量能够得到限制,避免了因为请求数量过高对该目标域名指向的服务器造成影响,减小资源下载对该域名的影响。
技术领域
本公开涉及信息技术领域,具体地,涉及一种资源下载方法、装置、存储介质及电子设备。
背景技术
如今我们已经进入了大数据时代,随着互联网行业迅猛发展,各种信息每年以指数级增长,数据已经成为必不可少的部分,为了方便获取的网络数据,常常采用资源采集程序以下载获取各个网站中的资源。
然而,对被采集的网站来说,一定时间内接收大量请求可能导致服务器崩溃等问题,对网站的使用造成巨大影响,因此,这类网站往往会设置例如访问频率上限以避免访问请求过多。对于资源采集方来说,下载部分设置有访问频率的上限的网站中的资源时,可能会因为下载请求量过大导致被该网站的服务器屏蔽,进而无法获取到所需的数据。
发明内容
为了解决相关技术中存在的问题,本公开的目的是提供一种资源下载方法、装置、存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种资源下载方法,包括:
在目标域名所包括的各个URL地址中,确定处于下载中状态的URL地址的第一数量;
将对应所述目标域名的预设数量阈值与所述第一数量进行比较,根据比较结果确定第二数量;
在所述第二数量符合预设条件的情况下,根据所述第二数量,在所述目标域名所包括的处于待下载状态的URL地址中,确定目标URL地址,并从所述目标URL地址下载资源。
可选地,所述确定目标域名下处于下载中状态的URL地址的第一数量包括:
确定下载队列中属于所述目标域名的URL地址的数量,得到所述第一数量,其中,所述下载队列用于存放处于下载中状态的URL地址;
在针对所述下载队列中的任一URL地址的资源下载完成后,从所述下载队列删除该URL地址。
可选地,所述根据所述第二数量,从所述目标域名下的处于待下载状态的URL地址中,确定目标URL地址,并从所述目标URL地址下载资源,包括:
从域名队列中获取所述第二数量的所述目标域名下的URL地址作为所述目标URL地址,其中,所述域名队列用于存放处于待下载状态的URL地址;
将所述目标URL地址加入到所述下载队列中,并从所述目标URL地址下载资源,以及从所述域名队列中删除所述目标URL地址。
可选地,所述方法还包括:
在监听到所述域名队列加入了新的待下载域名的URL地址的情况下,将所述新的待下载域名作为所述目标域名,并将所述域名队列中的所述新的待下载域名的URL地址作为所述目标域名下的处于待下载状态的URL地址。
可选地,所述方法还包括:
在针对所述下载队列中的任一URL地址的资源下载完成,且所述域名队列中对应该URL地址的待下载域名存在处于待下载状态的URL地址的情况下,将对应该URL地址的待下载域名作为所述目标域名。
可选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金堤科技有限公司,未经北京金堤科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111553042.4/2.html,转载请声明来源钻瓜专利网。





