[发明专利]一种海量日志的查询与统计分析系统无效
申请号: | 201310306942.8 | 申请日: | 2013-07-19 |
公开(公告)号: | CN103399887A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 柯宗贵;柯宗庆;杨育斌;赵必厦 | 申请(专利权)人: | 蓝盾信息安全技术股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510665 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 日志 查询 统计分析 系统 | ||
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种海量日志的查询与统计分析系统。
背景技术
随着云计算、移动互联网、物联网的崛起与发展,大数据的时代已经来临。各种系统、程序、运维、交易等得日志变得越来越重要,因为它是系统恢复、错误跟踪、安全检测等操作的重要依据。在一大堆非结构化的日志文件里面,怎样快速检索出数据、怎样快速寻找到有用的数据、怎样对日志进行统计分析,变得越来越重要。
Kibana是一个开源项目,为Logstash和ElasticSearch提供的日志分析的Web接口,可使用它对日志进行高效的搜索、可视化、分析等各种操作。
Logstash是一个开源的日志采集工具,可以采集的数据源很多,包括:amqp、drupal_dblog、elasticsearch、eventlog、exec、file、ganglia、gelf、gemfire、generator、graphite、heroku、imap、irc、log4j、lumberjack、lumberjack2、pipe、rabbitmq、redis、relp、snmptrap、sqs、stdin、stomp、syslog、tcp、twitter、udp、varnishlog、websocket、xmpp、zenoss、zeromq。
ElastciSearch是开源的搜索引擎,基于Apache Lucene,开发者是Shay Banon。ElasticSearch是一个分布式的RESTful开源搜索服务器,同时也是一个可扩展的解决方案,无需特别配置就可支持接近实时的搜索和多租户。很多公司都采用了ElasticSearch,包括StumbleUpon和火狐Mozilla。ElasticSearch在Apache License2.0授权方式下开源。
ElastciSearch不能处理复杂的计算,只能进行常规的搜索和查询。因此,基于ElastciSearch的Kibana和Logstash也存在一样的不足之处。
Apache Hadoop是一个能够对大量数据进行分布式处理的开源软件框架,由Apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由Google Lab开发的Map/Reduce和Google File System(GFS)的启发。2006年3月份,Map/Reduce和Nutch Distributed File System(NDFS)分别被纳入称为Hadoop的项目中。
Hadoop的命名灵感来自Cutting儿子的玩具大象。Hadoop的开发者Doug Cutting最初开发Hadoop是为了满足开源web搜索引擎Nutch的集群处理需求,Cutting实现了MapReduce功能和分布式文件系统(HDFS),并整合成为Hadoop。
Hadoop是目前最流行的大数据(包括非结构化、半结构化和结构化数据)存储和处理技术。通过MapReduce,Hadoop将大数据分解成小块分配给各个通用服务器节点进行分布处理。Hadoop具有可扩展、经济、可靠、高效等特点。
Hadoop的开源授权方式是Apache License2.0。
Hadoop技术是分布式的批处理技术,不能较好地处理实时性问题。因此,基于Hadoop来实现的应用系统,也不具备实时性的特性。比如申请号为CN201110418958.9的基于Hadoop的分布式日志分析系统。
发明内容
本发明为了解决现有技术中难以对海量日志进行实时查询处理和统计分析并挖掘出有用的数据,难以在规定时间内计算出结果等的缺点或不足,采用了基于ElasticSearch和Hadoop来处理海量日志的方案,从而实现了对海量日志进行实时查询和统计分析的目的。
一种海量日志的查询与统计分析系统,通过使用ElasticSearch存储日志记录,建立索引,来进行实时的查询与检索;通过Hadoop集群的MapReduce运算、Hive QL的类SQL查询、RHadoop的统计分析接口等,对日志进行复杂的运算分析,从中获取有用的信息。该系统包括5个模块,分别是数据源模块、日志采集模块、存储查询模块、统计分析模块、Web展示模块。
其中,数据源模块包括Syslog、Avro、Netcat、文件及其他系统外部的数据源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术股份有限公司,未经蓝盾信息安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310306942.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动在线汽油调合小试装置
- 下一篇:一种文件保存方法及装置