[发明专利]反爬虫方法和装置在审
| 申请号: | 202011240370.4 | 申请日: | 2020-11-09 |
| 公开(公告)号: | CN112422543A | 公开(公告)日: | 2021-02-26 |
| 发明(设计)人: | 张驰;简志枰;张舜华;李娟;任文涛;谭汉坚;林社亮 | 申请(专利权)人: | 建信金融科技有限责任公司 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L9/08;G06F21/60;G06F8/30 |
| 代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张效荣;冯培培 |
| 地址: | 200120 上海市自由*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 爬虫 方法 装置 | ||
本发明公开了一种反爬虫方法和装置,涉及计算机技术领域。该反爬虫方法的一具体实施方式包括:将数据文本进行加密,并根据加密后的数据文本生成雪碧图;将所述雪碧图中每个字符对应的背景图像起始位置的属性值进行加密;将所述数据文本的雪碧图以及所述雪碧图中每个字符对应的属性值发送给前端,通过所述前端根据所述数据文本的雪碧图以及所述雪碧图中每个字符对应的属性值显示正确顺序的数据文本。该实施方式提高了反爬虫的破解难度。
技术领域
本发明涉及计算机技术领域,尤其涉及一种反爬虫方法和装置。
背景技术
随着数据挖掘和大数据技术的发展,数据蕴藏着的价值逐渐得到了广泛的重视,从数据中挖掘出对企业有价值的信息正在成为众多企业的关键性战略之一。而网络爬虫是获取海量数据的重要技术手段之一,出于利益的目的,大量违反REP(REP是一种创新协议)的爬虫程序非法获取大量的网页内容来获取大量数据。大量的爬虫请求即消耗了网络应用的服务器性能和网络带宽,又影响了用户体验。并且现有的反爬虫技术手段往往通过单一方式实施,容易破解,又容易造成对正常用户访问的误伤。
发明内容
有鉴于此,本发明实施例提供一种反爬虫方法和装置,能够解决现有的反爬虫方式容易被破解的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种反爬虫方法。
本发明实施例的反爬虫方法包括:
将数据文本进行加密,并根据加密后的数据文本生成雪碧图;
将所述雪碧图中每个字符对应的背景图像起始位置的属性值进行加密;
将所述数据文本的雪碧图以及所述雪碧图中每个字符对应的属性值发送给前端,通过所述前端根据所述数据文本的雪碧图以及所述雪碧图中每个字符对应的属性值显示正确顺序的数据文本。
可选地,将数据文本进行加密包括:
基于洗牌算法,采用随机的密钥信息将数据文本进行加密。
可选地,根据加密后的数据文本生成雪碧图包括:
将加密后的数据文本处理得到统一码,并从所述数据文本中截取包括统一码的字符;
将截取得到的统一码的字符转换成图像,并将所述图像拆分得到每个字符对应的字符文件;
将每个字符对应的字符文件合并成雪碧图。
可选地,将加密后的数据文本处理得到统一码包括:
基于escape函数,将加密后的数据文本处理得到统一码。
可选地,所述雪碧图的格式为SVG或PNG格式。
可选地,当所述雪碧图的格式为PNG格式时,将截取得到的统一码的字符转换成图像,并将所述图像拆分得到每个字符对应的字符文件包括:
将截取得到的统一码的字符转换成SVG格式的图像,将所述SVG格式的图像拆分得到每个字符对应的字符文件;
将所述字符文件由SVG格式转换为PNG格式,并采用所述字符文件对应的字符的统一码命名所述字符文件。
可选地,将所述雪碧图中每个字符对应的背景图像起始位置的属性值进行加密包括:
将用于加密所述数据文本的密钥信息颠倒顺序;
基于逆向洗牌算法,根据颠倒顺序后的密钥信息,将所述雪碧图中每个字符对应的背景图像起始位置的属性值进行加密。
为实现上述目的,根据本发明实施例的另一个方面,提供了一种反爬虫方法。
本发明实施例的反爬虫方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011240370.4/2.html,转载请声明来源钻瓜专利网。





