[发明专利]一种基于分布式数据收集的方法在审
申请号: | 201811354401.1 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109543103A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 邓杰;陈建江 | 申请(专利权)人: | 深圳市中易科技有限责任公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 李冉 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网网站 分布式数据 互联网数据 配置界面 数据抓取 抓取 标准互联网 分布式消息 收集数据 数据依据 统一格式 大数据 网站 渠道 存储 互联网 分类 分析 | ||
本发明公开了一种基于分布式数据收集的方法,包括:收集数据来源的互联网网站信息,并对互联网网站信息进行整理,得到各个互联网网站的特性;调研各个互联网网站的特性并对互联网网站进行分类,获得不同类互联网网站的配置界面以及数据抓取渠道;根据配置界面以及数据抓取渠道对互联网数据进行处理,将处理后的互联网数据推送给分布式消息存储,最终形成统一格式的标准互联网数据。本发明分别对不同类型的互联网网站进行处理,便于后期的同类型网站进行扩展,能够对互联网上的用户舆论数据做到全面、高效、多样化的抓取,为之后的舆论大数据分析提供最基础的数据依据。
技术领域
本发明涉及互联网大数据采集技术领域,更具体的说是涉及一种基于分布式数据收集的方法。
背景技术
当前是一个互联网的时代,互联网深入到了人们的日常生活中,日常消费、生活习惯、个人爱好都在互联网中留下了各种痕迹和数据,这样就造成互联网上留下了海量的待发掘的消费数据。对这些数据的分析和挖掘,获取其中的关键业务信息,是至关重要的。
因此,如何提供一种高效、全面的数据收集方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于分布式数据收集的方法,能够对互联网上的用户舆论数据做到全面、高效、多样化的抓取,为之后的舆论大数据分析提供最基础的数据依据。
为了实现上述目的,本发明采用如下技术方案:
一种基于分布式数据收集的方法,包括以下步骤:
S1:收集数据来源的互联网网站信息,并对所述互联网网站信息进行整理,得到各个互联网网站的特性;
S2:调研各个所述互联网网站的特性并对所述互联网网站进行分类,获得不同类互联网网站的配置界面以及数据抓取渠道;
S3:根据所述配置界面以及所述数据抓取渠道对互联网数据进行处理,将处理后的互联网数据推送给分布式消息存储,最终形成统一格式的标准互联网数据。
进一步的,步骤S1具体包括以下步骤:
S11:根据业务需求,获得所述互联网网站信息;
S12:整理所述互联网网站信息,包括网站格式、数据展示形式和搜索方式;
S13:根据整理后的所述互联网网站信息,配置网站基础信息配置,得到各个所述互联网网站的特性。
进一步的,步骤S2具体包括以下步骤:
S21:调研所述互联网网站的特性,包括各个互联网网站信息的特性、对业务数据的重要性以及业务对互联网网站中被抓取数据所需要的及时性;
S22:根据不同的互联网网站特性对互联网网站进行分类,得到不同类型的互联网网站;
S23:对所述不同类型的互联网网站,设定不同的配置界面以及抓取渠道,其中,所述配置界面的服务信息为种子URL、抓取频率、抓取关键字、网站用户名、网站密码、网站类型、网站的解析格式、网站的抓取层级数和网站抓取的页面数。
进一步的,在步骤S23之后还包括S24:对所述配置界面的配置权限进行管理。
进一步的,步骤S3具体包括以下步骤:
对所述互联网数据进行数据抓取、数据分析和数据治理;
其中,通过分布式架构、多进程、多线程调用和服务器集群的方式进行所述数据抓取;
所述数据分析采用分布式数据计算、分布式实时流式处理框架;
所述数据治理包括数据解析、数据过滤以及数据去重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市中易科技有限责任公司,未经深圳市中易科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811354401.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子手册的推送方法和装置
- 下一篇:确定服务提供方的方法、系统以及存储介质