[发明专利]信息采集的方法和装置有效

专利信息
申请号: 201710325105.8 申请日: 2017-05-10
公开(公告)号: CN108874810B 公开(公告)日: 2021-01-26
发明(设计)人: 李杰;安伟佳;许斌 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F16/955 分类号: G06F16/955;G06F16/953;G06F16/958
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 张一军;姜劲
地址: 100195 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息 采集 方法 装置
【说明书】:

发明提供一种信息采集的方法和装置。一种信息采集的方法,包括:接收从处理中心分发的信息采集任务;根据信息采集任务启动一个或多个浏览器进程,并且在启动一个或多个浏览器进程的过程中加载模拟行为模板;从处理中心接收待采集信息的目标网页的统一资源定位符URL;根据所接收的URL,对目标网页进行渲染,并且获得目标网页的页面渲染状态;根据URL的类型,确定是否需要在目标网页上配置所加载的模拟行为模板;响应于确定需要配置模拟行为模板,在目标网页上触发模拟行为模板中所定义的功能;以及对目标网页进行解析并且将解析结果回传到处理中心的云存储。

技术领域

本发明涉及计算机领域,特别涉及一种信息采集的方法和装置。

背景技术

网络信息采集,是利用网络机器人(俗称网络爬虫),在互联网上,按照一种提前约定的规范、协议,自动搜集互联网上的信息的一套程序。可以采用不同的采集算法,根据不同的场景有深度优先算法,广度优先算法或者两者结合使用,拓扑出整个Internet网站的信息。

目前随着服务器硬件、网络带宽等资源优化提升,各个站点前端技术的丰富化,网页的加载量消耗带宽、流量增加,多数都是采用了展示信息的延时异步加载、懒加载等方式,效果是为了在不影响页面的响应速度的前提下,丰富页面内容,提升用户的体验度。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:

当下主流网站的网页结构复杂,许多重要的信息例如价格、评论等,均是异步请求,延时加载渲染。常规的信息采集方式不能获取这些内容,做不到所见即所得。此外,常规的信息采集方式定制化差,没有人工操作行为的加入,很容易被目标网页的各种机器学习算法识别为非人工操作,从而被目标网页禁止访问或需要增加登录次数,导致信息采集的失败。

发明内容

有鉴于此,本发明实施例提供了一种信息采集方法和装置。

本发明的实施方案能够在常规无核浏览器信息采集(网络爬虫)的基础上,灵活地增加人工行为的模拟操作,例如点击、登录、翻页、刷新、下拉滚动、全屏操作、鼠标滑过某个元素、滚动条下拉、鼠标移动停留等等,从而满足目标网页中所设置的各种类型的埋点的要求,能够加载更多需要点击才能展现的信息,并且在多次发起访问请求的时候,可以真正做到所见即所得,降低被禁止访问的风险。

为实现上述目的,根据本发明实施例的一个方面,提供了一种信息采集的方法,其特征在于,包括:接收从处理中心分发的信息采集任务;根据所述信息采集任务启动一个或多个浏览器进程,并且在启动所述一个或多个浏览器进程的过程中加载模拟行为模板;从所述处理中心接收待采集信息的目标网页的统一资源定位符URL;根据所接收的URL,对所述目标网页进行渲染,并且获得所述目标网页的页面渲染状态;根据所接收的URL的类型,确定是否需要在所述目标网页上配置所加载的模拟行为模板;响应于确定需要配置所述模拟行为模板,在所述目标网页上触发所述模拟行为模板中所定义的功能;以及对所述目标网页进行解析并且将解析结果回传到所述处理中心。

可选地,所述模拟行为模板包括下述中的一个或多个:页面下拉、滚动效果模板;点击、登录效果模板、以及选择效果模板。

可选地,所述模拟行为模板是由信息采集装置预定义的模板。

可选地,所述模拟行为模板是用户自定义的模板。

可选地,通过采用插件可插拔式方式将所述模拟行为模板以插件的形式注入到所述一个或多个浏览器进程,来加载所述模拟行为模板。

可选地,对所述目标网页进行解析并且将解析结果回传到所述处理中心包括:对所述目标网页进行模板适配,以与使得所述目标网页与信息采集装置定义的模板相匹配;根据所述目标网页的不同URL类型,选择对所述目标网页进行解析所使用的规则,并使用所选择的规则对所述目标网页进行解析;以及,基于所述规则生成解析结果,并且将所述解析结果回传到所述处理中心。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710325105.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top