[发明专利]一种信息处理方法及系统在审
申请号: | 202010697095.2 | 申请日: | 2020-07-20 |
公开(公告)号: | CN111865977A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王忠儒;余伟强;周晓雪 | 申请(专利权)人: | 北京丁牛科技有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/951 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 林哲生 |
地址: | 100081 北京市海淀区中关村*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息处理 方法 系统 | ||
本发明公开了一种信息处理方法及系统,基于针对网站的用户请求,在目标信息池中获取目标信息;根据目标信息生成与用户请求相匹配的请求信息,使得基于请求信息对网站进行信息请求,响应于对网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。目标信息池包括目标浏览器的用户代理信息、目标IP代理信息、和目标cookie信息。能够通过目标信息池的目标信息对网站进行请求,由于该目标信息为网站的允许请求信息,避免网站的反爬虫系统对用户阻拦,使得用户能够快速有效获得与之权限对应的信息,提升了信息获取效率。
技术领域
本发明涉及计算机技术领域,特别是涉及一种信息处理方法及系统。
背景技术
网页爬虫不仅会盗取网站的核心内容,侵犯用户隐私和知识产权,降低被爬网站的竞争力;同时,它还会产生许多虚假用户,造成的大量IP访问网站侵占带宽资源的现象,增加网站的运营成本。为了减少网站的损失,一些网站便开始采取反爬虫技术。
但是网站采用反爬虫技术后,会使得正常用户在某一段时间内若访问较为频繁也会被认定为爬虫现象,使得该用户无法及时获得大量与其权限对应的正常信息。从而使得获取网站信息的效率较低。
发明内容
针对于上述问题,本发明提供一种信息处理方法及系统,实现了提升网站信息获取效率。
为了实现上述目的,本发明提供了如下技术方案:
一种信息处理方法,所述方法包括:
基于针对网站的用户请求,在目标信息池中获取目标信息,所述目标信息池包括目标浏览器的用户代理信息、目标IP代理信息和目标cookie信息;
根据所述目标信息生成与所述用户请求相匹配的请求信息,使得基于所述请求信息对所述网站进行信息请求;
响应于对所述网站进行信息请求过程中获得验证码,依据所述验证码类型,输入与所述验证码类型对应的验证信息,实现通过所述网站获得与所述用户请求相匹配的信息。
可选地,所述基于针对网站的用户请求,在目标信息池中获取目标信息,包括:
响应于用户将用户请求发送至网站,获取所述网站针对所述用户请求的反馈信息;
若所述反馈信息满足访问失败且所述用户满足所述网站的访问权限的条件时,在目标信息池中获取与所述用户请求相匹配的目标信息。
可选地,所述方法还包括:
对所述用户请求进行解析,获得与所述用户请求对应的目标网址;
利用所述目标信息池中的信息对所述目标网址进行信息爬取,得到初始信息;
将所述初始信息在所述用户对应的客户端进行显示,使得所述用户对所述初始信息进行选定,得到选定信息;
基于所述选定信息确定与所述选定信息对应的信息路径匹配规则;
利用所述目标信息池中的信息对所述信息路径匹配规则对应的信息进行爬取,得到目标信息。
可选地,所述方法包括:创建目标信息池,包括:
基于获取到的浏览器的用户代理信息进行处理,得到目标浏览器的用户代理信息;
获取各个公开IP代理网站的IP代理信息,用所述IP代理信息访问目标网址进行检测,检测通过的IP代理信息确定为目标IP代理信息;
获取每个账号目标网址的用户名、密码和对应的cookie信息,并基于所述每个账号目标网址的用户名、密码和对应的cookie信息生成目标cookie信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京丁牛科技有限公司,未经北京丁牛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010697095.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:利用根系分泌物强化植物修复石油烃污染土壤的方法
- 下一篇:显示面板