[发明专利]一种网络数据采集的方法及其系统在审
| 申请号: | 202010790334.9 | 申请日: | 2020-08-07 |
| 公开(公告)号: | CN111953766A | 公开(公告)日: | 2020-11-17 |
| 发明(设计)人: | 刘德建;柳旭辉;张延锋;郑成龙;陈宏展 | 申请(专利权)人: | 福建省天奕网络科技有限公司 |
| 主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F16/951 |
| 代理公司: | 福州旭辰知识产权代理事务所(普通合伙) 35233 | 代理人: | 程勇 |
| 地址: | 350212 福*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 网络 数据 采集 方法 及其 系统 | ||
1.一种网络数据采集的方法,其特征在于:所述方法包括如下步骤:
步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库。
2.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
3.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
4.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
5.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
6.根据权利要求1所述的一种网络数据采集的方法,其特征在于:所述文件支持TXT、EXCEL、CSV和HTML文件格式。
7.一种网络数据采集的系统,其特征在于:所述系统包括:配置模块、数据采集模块、数据格式处理模块、以及结果存储模块;
所述配置模块,用于定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
所述数据采集模块,用于读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
所述数据格式处理模块,用于进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
所述结果存储模块,用于保存采集结果,将数据导出到本地形成文件或者保存到数据库。
8.根据权利要求1所述的一种网络数据采集的系统,其特征在于:所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建省天奕网络科技有限公司,未经福建省天奕网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010790334.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于毫米波雷达的健康监测装置及方法
- 下一篇:一种信息推荐方法和服务设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





