[发明专利]定向定量的互联网数据采集方法及系统在审
申请号: | 202010596000.8 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111723268A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 邢荣;李一峰 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/957;G06F16/958 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 定向 定量 互联网 数据 采集 方法 系统 | ||
1.一种定向定量的互联网数据采集方法,其特征在于,该方法是通过自定义的数据显示上限和偏移值对网站发送检索请求,得到相关联的定制化检索结果,经由一次或少次请求遍历获取全量数据,再将得到检索结果合并后做结构化处理,保存入库达到数据采集的目的。
2.根据权利要求1所述的定向定量的互联网数据采集方法,其特征在于,该方法具体如下:
S1、获取默认参数:通过浏览器开发工具或数据采集工具对向目标网站发送的检索请求或翻页请求进行拦截,获取包括每页显示上限和当前页数在内的各个请求参数名称和值;
S2、参数自定义:根据网站的目标数据总量,人为调整增大显示上限的数值并设定合理的偏移量,将全量数据分割为小于网站总页数的数块;
S3、发送测试请求:自定义的数据显示上限和偏移值后,发送1次请求并获取网站响应数据,与网站对应偏移量的网页数据作对比,判断两者是否符合:
①、若是,则说明该方法有效,能够发送定量定向请求,执行步骤S4;
②、若不是,则说明不适用于该网站;
S4、获取全量数据:依次发送步骤S2中自定义的显示上限和不同偏移量对应的请求,获取每次请求的响应数据,从而得到全量目标数据;
S5、数据处理入库:对步骤S4获取的全量数据进行数据处理,存入数据库,完成数据采集。
3.根据权利要求1或2所述的定向定量的互联网数据采集方法,其特征在于,所述自定义的数据显示上限和偏移值是指用于网站检索的请求参数与需要采集的网站数据的显示形式有相关含义的数字;其中,自定义的数据显示上限的值大于网站默认值。
4.根据权利要求1所述的定向定量的互联网数据采集方法,其特征在于,所述相关联的定制化检索结果指的是与自定义的数据显示上限和偏移值相符的响应数据。
5.根据权利要求1或4所述的定向定量的互联网数据采集方法,其特征在于,所述经由一次或少次请求遍历获取全量数据是指获取网站公示的全量数据所需发送的访问请求次数仅需1次或小于网站默认显示的总页数的次数。
6.根据权利要求2所述的定向定量的互联网数据采集方法,其特征在于,所述偏移量的最大值与每页显示上限的值的乘积小于等于目标数据总量。
7.一种定向定量的互联网数据采集系统,其特征在于,该系统包括,
默认参数获取模块,用于通过浏览器开发工具或数据采集工具对向目标网站发送的检索请求或翻页请求进行拦截,获取包括每页显示上限和当前页数在内的各个请求参数名称和值;
参数自定义模块,用于根据网站的目标数据总量,人为调整增大显示上限的数值并设定合理的偏移量,将全量数据分割为小于网站总页数的数块;
测试请求发送模块,用于自定义的数据显示上限和偏移值后,发送1次请求并获取网站响应数据,与网站对应偏移量的网页数据作对比,判断两者是否符合;
全量数据获取模块,用于依次发送参数自定义模块中自定义的显示上限和不同偏移量对应的请求,获取每次请求的响应数据,从而得到全量目标数据;
数据处理入库模块,用于对全量数据获取模块中获取的全量数据进行数据处理,存入数据库,完成数据采集。
8.根据权利要求7所述的定向定量的互联网数据采集系统,其特征在于,所述自定义的数据显示上限和偏移值是指用于网站检索的请求参数与需要采集的网站数据的显示形式有相关含义的数字;其中,自定义的数据显示上限的值大于网站默认值;
偏移量的最大值与每页显示上限的值的乘积小于等于目标数据总量。
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
其中,所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至6任一项所述的定向定量的互联网数据采集方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行时,实现如权利要求1至6中所述的定向定量的互联网数据采集方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010596000.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置