[发明专利]基于用户行为画像的爬虫拦截方法、电子设备、存储介质有效
申请号: | 201810569151.7 | 申请日: | 2018-06-05 |
公开(公告)号: | CN108777687B | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 杨磊;朱金辉;冯威 | 申请(专利权)人: | 掌阅科技股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/951;G06F16/9535 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 100124 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 行为 画像 爬虫 拦截 方法 电子设备 存储 介质 | ||
本发明公开了一种基于用户行为画像的爬虫拦截方法、电子设备、存储介质,其方法包括:对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;接收客户端发送的对页面的访问请求,并根据访问请求产生的用户行为数据,得到用户行为特征;将用户行为特征与爬虫访问请求的用户行为画像进行比对,判断访问请求是否为爬虫访问请求;若是,对访问请求进行拦截。利用对已知爬虫访问请求分析得到的用户行为画像,可以准确的刻画爬虫访问请求的特征点。根据客户端发送的访问请问的用户行为特征,与用户行为画像进行比对,可以提高比对的准确率,避免拦截错误。进一步,在拦截时设置用户手动验证,降低拦截错误率。
技术领域
本发明涉及网络安全领域,具体涉及一种基于用户行为画像的爬虫拦截方法、电子设备、存储介质。
背景技术
网络爬虫是搜索引擎技术的基础组成部分。网络爬虫通过访问页面,从页面中抓取相关的信息,存储在搜索引擎的服务器中,提供给用户搜索结果。正常的搜索引擎使用网络爬虫时,一般通过使用http请求的UA(User-Agent,用户代理)字段来向服务器表明他们的身份。通过检查服务器的日志,使用用户代理字段可以辨认哪一个爬虫曾经访问过服务器,以及网络爬虫的访问的频率。但有些怀有恶意的网络爬虫通常不会留任何的用户代理字段内容,或者他们也会将他们的身份伪装成正常的搜索引擎。这些怀有恶意的网络爬虫会从页面中盗窃信息,给服务器造成安全威胁,并使得服务器负载过大。
现有技术中,为了确保正常用户的访问,有些服务器采取过滤用户IP、过滤HTTP请求的特定UA(User-Agent,用户代理)等方法来拦截来自网络爬虫的访问。但这种方法没有考虑到正常用户共用IP、UA可以任意设置等问题,导致拦截网络爬虫的效率不高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于用户行为画像的爬虫拦截方法、电子设备、存储介质。
根据本发明的一个方面,提供了一种基于用户行为画像的爬虫拦截方法,其包括:
对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;
接收客户端发送的对页面的访问请求,并根据访问请求产生的用户行为数据,得到用户行为特征;
将用户行为特征与爬虫访问请求的用户行为画像进行比对,判断访问请求是否为爬虫访问请求;
若是,对访问请求进行拦截。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:
对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;
接收客户端发送的对页面的访问请求,并根据访问请求产生的用户行为数据,得到用户行为特征;
将用户行为特征与爬虫访问请求的用户行为画像进行比对,判断访问请求是否为爬虫访问请求;
若是,对访问请求进行拦截。
根据本发明的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:
对已知爬虫访问请求进行分析,得到已知爬虫访问请求对应的用户行为画像;
接收客户端发送的对页面的访问请求,并根据访问请求产生的用户行为数据,得到用户行为特征;
将用户行为特征与爬虫访问请求的用户行为画像进行比对,判断访问请求是否为爬虫访问请求;
若是,对访问请求进行拦截。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于掌阅科技股份有限公司,未经掌阅科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810569151.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种针对区块链粉尘交易的识别方法及系统
- 下一篇:视频安全监测方法及系统