[发明专利]一种关于网络图片的多策略自适应爬取技术在审
申请号: | 201711432929.1 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108153880A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 沈家云;王松;郝圣禹 | 申请(专利权)人: | 北京非斗数据科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 网络图片 自适应 计算机技术领域 调度策略 链接 智能 | ||
1.本发明涉及计算机技术领域,具体涉及一种网络图片的多策略自适应爬取技术。本发明采用的技术方法可分为四个步骤:
步骤一,建立不同策略的爬虫组件
步骤二,建立爬虫组件的调度策略
步骤三,建立爬取链接排重机制
步骤四,建立智能爬取策略。
2.根据权利要求1所述的方法,其特征在于:在步骤一中,由于各大主流网站图片资源布设的方式各有不同,例如直接上传图片资源、引用图片链接等,所以设计针对图片布设方式的策略,实现爬虫组件库的建立。
3.根据权利要求1所述的方法,其特征在于:在步骤二中,网站中的资源板块之间会存在架构的差异性,针对不同资源板块架构,选择适合每一板块的爬虫组件,配置合适的爬虫组件后根据下载任务需要提供的爬虫数量(爬取资源)构建灵活的调度策略。
4.根据权利要求1所述的方法,其特征在于:在步骤三中,在进行多个爬虫同时进行多任务处理时,爬取的链接会存在重复的情况。为了解决这种情况,本发明建立了爬取链接排重机制,将爬取过程中每次新提取到的URL进行排重处理,去掉URL库中已经存在的链接,仅将从来没有出现过的URL放入抓取队列。
5.根据权利要求1所述的方法,其特征在于:在步骤四中,通过关键字在监测网站中进行检索,将检索到不同网站的链接地址放入智能爬取队列中,针对不同的网站类型通过调度不同的爬虫和定义的爬取策略来依次爬取队列中链接的图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京非斗数据科技发展有限公司,未经北京非斗数据科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711432929.1/1.html,转载请声明来源钻瓜专利网。