[发明专利]一种基于分布式的海量日志采集系统在审
申请号: | 201410299857.8 | 申请日: | 2014-06-27 |
公开(公告)号: | CN104036025A | 公开(公告)日: | 2014-09-10 |
发明(设计)人: | 杨育斌;柯宗贵;赵必厦 | 申请(专利权)人: | 蓝盾信息安全技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F11/34 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510665 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 海量 日志 采集 系统 | ||
1.一种基于分布式的海量日志采集系统,其特征在于,该系统通过在目标主机上安装Agent进程,对目标主机的文本、应用程序、数据库等日志信息进行有选择地定向推送到服务器集群的统一访问接口,服务器端采用了分布式缓存与实时流处理框架技术;该系统包括数据源层、分布式缓存层、分布式存储与计算层、业务处理层、可视化展示层和统一调度与管理模块;
数据源层,由数据采集组件(生产者)模块对各个节点上面的文本、应用程序、数据库等进行采集,推送到分布式缓存层;
分布式缓存层,由LVS对各个节点的消息队列组件进行负载均衡,提供一个统一的接口来接收并写入数据源节点推送过来的数据,等待分布式存储与计算层的数据采集组件(消费者)来读取;
分布式存储与计算层,提供存储与计算的功能,包括数据采集组件(消费者)模块、离线计算模块、实时计算模块、分布式存储和搜索引擎;其中,数据采集组件(消费者)模块负责对分布式缓存层进行数据读取;离线计算模块由Hadoop及其生态系统组成;实时计算模块由Storm组成;
业务处理层,提供统计分析和数据挖掘的功能与服务,由上层进行调用;
可视化展示层,提供普通查询、全文检索、报表展示、导入导出等功能;
统一调度与管理模块,对上述5层进行统一的调度与管理,基于工作流,自动化处理。
2.根据权利要求1所述的系统,其特征在于,该系统的数据源层、分布式缓存层、分布式存储与计算层的实时计算模块和分布式存储模块、统一调度与管理模块是分布式日志采集系统的核心部分,即数据采集子系统,其包括数据源层、分布式缓存层、数据处理层和持久化层,其可以独立出来成为一个新的系统;其中,数据源层即分布式日志采集系统的数据源层;分布式缓存层即分布式日志采集系统的分布式缓存层;数据处理层即分布式日志采集系统的分布式存储与计算层的实时计算模块和统一调度与管理模块;持久化层即分布式日志采集系统的分布式存储与计算层的分布式存储模块。
3.根据权利要求2所述的系统,其特征在于,数据源层,包括很多的数据节点主机,每个主机上都安装了数据采集组件(生产者)模块,会启动Agent进程来负责接收服务端的采集指令,把本节点的文本、应用程序、数据库等数据推送到服务器集群中的统一访问接口中;
分布式缓存层,位于服务器集群里面,其主要由LVS负责把数据自动转发到Kafka集群中的某台节点主机进行写入,负责对外提供统一访问接口和分布式缓存服务;其中统一访问接口包括统一的域名/主机名和端口;
数据处理层,由Storm构成,其中Topology由1个Spout和若干个Bolt构成。KafkaReaderSpout负责读取Kafka集群里面的数据,然后把数据传输给ExecutorBolt,ExecutorBolt根据业务逻辑及日志的类型,往下传送数据到HbaseWriterBolt、HdfsWriterBolt或者SolrWriterBolt中进行持久化存储;其中,HbaseWriterBolt负责HBase的持久化存储,HdfsWriterBolt负责HDFS的持久化存储、SolrWriterBolt负责Solr-Cloud的持久化存储;
持久化层,由HBase、HDFS和Solr-Cloud组成。HBase主要是键值对存储,存储原始日志、分类处理后的日志;HDFS主要存储原始日志;Solr-Cloud主要对HBase存储的日志进行索引,加快检索速度,可以全文检索。
4.根据权利要求3所述的系统,其特征在于,数据采集子系统的核心,包括位于数据源层的数据采集组件(生产者)模块、分布式缓存层与数据处理层。
5.根据权利要求3或4所述的系统,其特征在于,数据采集子系统的工作流程为:首先,数据源的所有节点主机的Agent进程会自动推送本节点的文本、应用程序、数据库等数据到服务器集群中的统一访问接口中;
接着,统一访问接口接收到数据,由LVS自动转发到某个Kafka节点中并写入数据,等待被读取;
最后,由实时计算模块Storm中的Topology进行业务处理,其中Topology由1个Spout和若干个Bolt构成;KafkaReaderSpout负责读取Kafka集群中的数据,然后把数据传输给ExecutorBolt,ExecutorBolt根据业务逻辑及日志的类型,往下传送数据到HbaseWriterBolt、HdfsWriterBolt或者SolrWriterBolt中进行持久化存储;其中,HbaseWriterBolt负责HBase的持久化存储,HdfsWriterBolt负责HDFS的持久化存储、SolrWriterBolt负责Solr-Cloud的持久化存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术有限公司,未经蓝盾信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410299857.8/1.html,转载请声明来源钻瓜专利网。