[发明专利]一种反爬虫方法、服务器和客户端有效
申请号: | 201810118999.8 | 申请日: | 2018-02-06 |
公开(公告)号: | CN108449316B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 苏思洋;李涛 | 申请(专利权)人: | 麒麟合盛网络技术股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 100085 北京市海淀区信息路2号(北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 爬虫 方法 服务器 客户端 | ||
本申请公开了一种反爬虫方法、服务器和客户端,所述方法包括:在服务器中,根据预设乱序规则,对原始数据进行乱序处理,得到与原始数据对应的乱序数据,以及确定与预设乱序规则对应的乱序标识,其中,乱序标识用于在客户端进行网页展示时将乱序数据转换为原始数据;根据乱序数据和乱序标识,生成与乱序数据对应的网页源码;在接收到客户端发送的网页访问请求后,向客户端返回网页源码,以供客户端展示原始数据,使得在客户端被爬虫爬取时,爬虫获取到的网页源码中为乱序数据,而客户端展示给用户的为乱序数据所对应的原始数据,从而既能够避免原始数据的泄漏,又不影响用户的正常浏览,有效提高了网站安全性能。
技术领域
本申请涉及信息安全技术领域,尤其涉及一种反爬虫方法、服务器和客户端。
背景技术
网络爬虫(简称爬虫),是一种通过网页的链接地址寻找网页,并按照一定的规则,自动获取网页内容的程序。
目前的爬虫技术已经很普遍,通过设定的规则,爬虫可以轻易地抓取网页源码中一些重要信息,例如,商品价格、商家电话号码、商品评分或商品关键参数等,造成网站信息泄漏,降低网站安全性能。
发明内容
本申请实施例提供一种反爬虫方法、服务器和客户端,用以解决现有的爬虫爬取造成的网站信息泄漏问题。
本申请实施例提供了一种反爬虫方法,所述方法应用于服务器,所述方法包括:
根据预设乱序规则,对原始数据进行乱序处理,得到与所述原始数据对应的乱序数据;
确定与所述预设乱序规则对应的乱序标识,其中,所述乱序标识用于在客户端进行网页展示时将所述乱序数据转换为所述原始数据;
根据所述乱序数据和所述乱序标识,生成与所述乱序数据对应的网页源码;
在接收到所述客户端发送的网页访问请求后,向所述客户端返回所述网页源码,以供所述客户端展示所述原始数据。
可选地,在根据预设乱序规则,对原始数据进行乱序处理,得到与所述原始数据对应的乱序数据之前,所述方法还包括:
根据所述原始数据,随机生成所述预设乱序规则;
确定与所述预设乱序规则对应的乱序标识,包括:
确定所述预设乱序规则对应的哈希值;
将所述哈希值确定为所述乱序标识。
可选地,根据所述乱序数据和所述乱序标识,生成与所述乱序数据对应的网页源码,包括:
将所述乱序标识确定为与所述乱序数据对应的标签的属性值。
本申请实施例还提供一种反爬虫方法,所述方法应用于客户端,所述方法包括:
向服务器发送用于访问目标网页的网页访问请求;
接收所述服务器返回的与所述目标网页对应的网页源码;
根据所述网页源码中与乱序数据对应的乱序标识,将所述乱序数据转换为原始数据,其中,所述乱序数据是在所述服务器中对所述原始数据进行乱序处理之后得到的;
根据所述原始数据,生成所述目标网页。
可选地,根据所述网页源码中与乱序数据对应的乱序标识,将所述乱序数据转换为原始数据,包括:
将所述乱序数据对应的标签的属性值,确定为与所述乱序数据对应的乱序标识。
根据所述乱序标识,从服务器获取与所述乱序标识对应的预设乱序规则;
根据所述预设乱序规则,将所述乱序数据转换为所述原始数据。
本申请实施例还提供一种服务器,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于麒麟合盛网络技术股份有限公司,未经麒麟合盛网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810118999.8/2.html,转载请声明来源钻瓜专利网。