[发明专利]一种大规模分布式数据管理系统及其方法有效
申请号: | 201611055775.4 | 申请日: | 2016-11-25 |
公开(公告)号: | CN106506673B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 王亚松;刘希;常子青 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06;G06F16/22;G06F16/31 |
代理公司: | 北京青松知识产权代理事务所(特殊普通合伙) 11384 | 代理人: | 郑青松 |
地址: | 100070 北京市丰台区南*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种大规模分布式数据管理系统及其方法。该系统包括爬虫端、数据收集服务器、主控制器、分布式存储服务器和业务端,爬虫端和业务端分别与数据收集服务器进行数据交互,其中,爬虫端根据主控制器的指令来抓取网页数据并向数据收集服务器发送;数据收集服务器用于将爬虫端发送的数据整合之后上传至分布式存储服务器,并将数据发送给业务端;主控制器用于管理爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定爬虫端和业务端的身份合法性,根据预定的分配规则为爬虫端分布相适配的数据收集服务器,当数据达到相适配的数据收集服务器的存储预设值时,主控制器控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据。 | ||
搜索关键词: | 一种 大规模 分布式 数据管理 系统 及其 方法 | ||
【主权项】:
1.一种大规模分布式数据管理系统,其特征在于,包括爬虫端、数据收集服务器、主控制器、分布式存储服务器和业务端,所述爬虫端和所述业务端分别与所述数据收集服务器进行数据交互,其中,所述爬虫端根据所述主控制器的指令来抓取网页数据并向数据收集服务器发送;所述数据收集服务器用于将爬虫端发送的数据整合之后上传至所述分布式存储服务器,并根据所述业务端发送的请求指令将相对应的数据发送给所述业务端;所述主控制器用于管理所述爬虫端、业务端认证以及数据收集服务器的负载均衡以及确定所述爬虫端和所述业务端的身份合法性,根据预定的分配规则为所述爬虫端分配相适配的数据收集服务器,当所述爬虫端爬取的数据达到相适配的数据收集服务器的存储预设值时,所述主控制器控制所述爬虫端向其他未达存储预设值的数据收集服务器发送所爬取的数据;其中,当所述爬虫端爬取的数据大小达到预设阈值时,所述主控制器控制所述爬虫端向相适配的数据收集服务器传送数据;当所述爬虫端爬取的数据大小未达到预设阈值时,所爬取的数据暂时存放在缓存器中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611055775.4/,转载请声明来源钻瓜专利网。