[发明专利]一种多源科创资源数据采集方法在审

专利信息
申请号: 202111505650.8 申请日: 2021-12-10
公开(公告)号: CN113918793A 公开(公告)日: 2022-01-11
发明(设计)人: 刘啸;杨昀 申请(专利权)人: 江苏宝和数据股份有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06F16/182;G06F16/28;G06F9/50;G06F9/54
代理公司: 南京磐泰合盛知识产权代理事务所(普通合伙) 32521 代理人: 李冰
地址: 210000 江苏省南京市栖霞区*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 多源科创 资源 数据 采集 方法
【权利要求书】:

1.一种多源科创资源数据采集方法,其特征在于:所述采集方法包括爬虫模块、路由模块和动态页面解析模块;

所述爬虫模块是指一个爬虫模块的集群中,会包含多个爬虫模块,爬虫模块主要的两个功能是页面下载和页面信息提取;

所述路由模块的主要功能是对整个分布式网页爬虫系统进行任务的接受、管理、分发,任务的负载均衡,爬虫服务和动态页面解析服务节点的管理以及系统内心跳包的发送;

所述动态页面解析模块是指以集群的模式针对动态页面进行页面解析;

具体的数据采集方法包括如下步骤:

S1、数据采集阶段;

S2、数据分析阶段;

S3、数据存储阶段;

所述S1中,数据采集阶段包括配置抓取目标、读取解析数据页面和启动信息采集,所述S2中,数据分析阶段包括数据解析、数据规范化处理和数据预处理,所述S3中,数据存储阶段包括数据分类、数据存储和数据反馈;

数据采集阶段在采集过程中基于Dis-Dyn Crawler架构,采用基于面向服务的架构体系,将动态页面处理功能独立出来形成一个单独的服务。

2.根据权利要求1所述的一种多源科创资源数据采集方法,其特征在于:科创资源数据采集对象包括科研文献数据库、专利数据库、国家自然科学基金项目数据库、国家社科基金项目数据库、金融数据库和政府与企业数据库。

3.根据权利要求1所述的一种多源科创资源数据采集方法,其特征在于:所述配置抓取目标是指采用基于Heritrix可配置主题的聚焦爬虫的网页大数据抓取方法,依据爬取需求定义好该聚焦网络爬虫爬取的目标,并进行相关的描述,获取初始URL,Heritrix会从线程池里分配给每个URL一个独立的线程,过滤掉与目标无关的网页,同时将与目标相关的URL地址存放到一个新的URL列表中,用于去重和判断爬取的进程;

在新的URL队列中,采取广度搜索策略,确定URL的优先级,并确定下一步要爬取的URL地址,用代码模拟客户端向服务器发送请求,编辑检索模式选择关键词检索或全域检索,在网页端自动获取指定的原始数据;

所述读取解析数据页面是指路由模块在启动后会监听相应的端口,对外提供爬虫任务接受接口,接受外界发送的爬虫任务,爬虫任务应包括网站的URL队列,页面处理程序所在的包以及文件名;

在爬虫任务发送时,会指定一个主工作节点和多个从工作节点,主工作节点接受到爬虫任务后会立刻根据种子URL进行页面抓取并将提取的URL存入到Redis缓存中,其他的从节点也会依次启动,至此主从爬虫节点会全部启动相互协作完成爬虫任务;

以循环迭代的方式采集整个表层网络资源,利用JavaScript脚本引擎或表单提交器获取动态页面内容,以完成对深层网络资源的采集;

所述启动信息采集是指根据网页分析算法初步过滤与所需主题无关的原始数据;

在数据采集阶段,将待访问的数据队列作为抓取对象,通过使用者或外部程序进行初始化处理,解析该页面提取数据特征,根据提取出的特征,存储此时界面上全部数据信息,以此为基础,每个爬虫的循环规律都是通过解析出的数据特征中挑选一个特征进行爬行,直至所需数据抓取完毕为止;

在科创资源数据抓取时,以顺沿的形式向节点树宽度方向分布式,抓取初始网页中所有信息,随机抓取一个网页地址,重复该过程,基于网络爬虫对科创数据进行抓取,对数据关键特征完成抓取任务。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏宝和数据股份有限公司,未经江苏宝和数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111505650.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top