[发明专利]一种基于分布式数据收集的方法在审

申请号：	201811354401.1	申请日：	2018-11-14
公开（公告）号：	CN109543103A	公开（公告）日：	2019-03-29
发明（设计）人：	邓杰;陈建江	申请（专利权）人：	深圳市中易科技有限责任公司
主分类号：	G06F16/9535	分类号：	G06F16/9535
代理公司：	北京慕达星云知识产权代理事务所(特殊普通合伙) 11465	代理人：	李冉
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	互联网网站分布式数据互联网数据配置界面数据抓取抓取标准互联网分布式消息收集数据数据依据统一格式大数据网站渠道存储互联网分类分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于分布式数据收集的方法，包括：收集数据来源的互联网网站信息，并对互联网网站信息进行整理，得到各个互联网网站的特性；调研各个互联网网站的特性并对互联网网站进行分类，获得不同类互联网网站的配置界面以及数据抓取渠道；根据配置界面以及数据抓取渠道对互联网数据进行处理，将处理后的互联网数据推送给分布式消息存储，最终形成统一格式的标准互联网数据。本发明分别对不同类型的互联网网站进行处理，便于后期的同类型网站进行扩展，能够对互联网上的用户舆论数据做到全面、高效、多样化的抓取，为之后的舆论大数据分析提供最基础的数据依据。

技术领域

本发明涉及互联网大数据采集技术领域，更具体的说是涉及一种基于分布式数据收集的方法。

背景技术

当前是一个互联网的时代，互联网深入到了人们的日常生活中，日常消费、生活习惯、个人爱好都在互联网中留下了各种痕迹和数据，这样就造成互联网上留下了海量的待发掘的消费数据。对这些数据的分析和挖掘，获取其中的关键业务信息，是至关重要的。

因此，如何提供一种高效、全面的数据收集方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于分布式数据收集的方法，能够对互联网上的用户舆论数据做到全面、高效、多样化的抓取，为之后的舆论大数据分析提供最基础的数据依据。

为了实现上述目的，本发明采用如下技术方案：

一种基于分布式数据收集的方法，包括以下步骤：

S1：收集数据来源的互联网网站信息，并对所述互联网网站信息进行整理，得到各个互联网网站的特性；

S2：调研各个所述互联网网站的特性并对所述互联网网站进行分类，获得不同类互联网网站的配置界面以及数据抓取渠道；

S3：根据所述配置界面以及所述数据抓取渠道对互联网数据进行处理，将处理后的互联网数据推送给分布式消息存储，最终形成统一格式的标准互联网数据。