[发明专利]一种日志采集装置及方法在审
申请号: | 201410742374.0 | 申请日: | 2014-12-05 |
公开(公告)号: | CN104486107A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 刘成;惠润海;宋怀明 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 北京新知远方知识产权代理事务所(普通合伙) 11397 | 代理人: | 申楠 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 采集 装置 方法 | ||
技术领域
本发明涉及数据采集领域,特别涉及一种日志采集装置及方法。
背景技术
在互联网以及传统行业,“大数据”时代已经来临,各个公司、团体机构都在极力研究、构建自己的大数据处理平台,通过对海量数据的整合、分析、统计,充分利用数据中蕴含的价值,挖掘出对企业管理、业务改进、商机捕捉等更为有用的信息,或者辅助企业网站系统的运营。而这些大规模的数据都是需要从各个应用系统中获取,对于规模较大的公司,应用系统众多,数据生成、存储方式、规范都有所不同,尤其是应用系统的日志数据。如何可靠、实时的将大规模的日志数据传送到大数据平台进行ETL(Extract-Transform-Load,萃取、转置、加载)处理、统计、分析、挖掘,是构建大数据平台必须面对的问题。
常见的日志数据采集方式有:SNMP Trap(SNMP自陷;SNMP:Simple Network Management Protocol,简单网络管理协议)机制采集、系统日志(Syslog)协议的采集、Telnet采集及文本方式(Mail(邮件)或FTP(File Transfer Protocol,文本传输协议))采集等。而某些互联网公司使用rsync(类unix系统下的数据镜像备份工具)服务定时的将数据传送到大数据平台,然后由大数据平台的监测程序完成数据入库操作。
最近随着大数据的不断地被互联网公司、学术机构认可并应用,开源的数据采集方案如Apache Flume和Kafka等越来越受业界关注。Cloudera开源出来的Flume可以实现点对点的实时数据传输,且支持多种数据源的采集。LinkedIn的Kafka是一个分布式、分区的、多副本的、多订阅者的“提交”日志系统,采用的策略是:生产者把数据推到Kafka集群上,而消费者主动去集群上拉数据。
目前的日志采集方案,不能在实时地进行日志采集时,还能够避免垃圾数据产生、数据丢失,并且能够及时进行断点续传。
发明内容
本发明针对上述问题,提出了一种日志采集装置及方法,用以在实时地进行日志采集时,能够避免垃圾数据产生、数据丢失,并且还能够及时进行断点续传。
本发明提供了一种日志采集装置,包括:
日志监控模块,用于监控当前服务器上的多个应用系统的日志文件;确定各日志文件新增的记录,并保存各日志文件以及新增的记录;
数据传输服务模块,用于将新增的记录进行跨网传输以导入云平台的HDFS功能,和/或,根据需要将保存的日志文件进行跨网传输以导入云平台的HDFS功能。
本发明提供了一种日志采集方法,包括如下步骤:
监控当前服务器上的多个应用系统的日志文件;
确定各日志文件新增的记录,并保存各日志文件以及新增的记录;
将新增的记录进行跨网传输以导入云平台的HDFS功能,和/或,根据需要将保存的日志文件进行跨网传输以导入云平台的HDFS功能。
本发明有益效果:
相对于现有技术中只能定时定点传送的方案,由于在本发明实施例提供的技术方案中,在确定各日志文件新增记录后便将新增的记录进行跨网传输导入云平台的HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)功能,因此能够满足实时性要求,同时也能在数据量增加时能够及时处理大规模的实时数据。
而对于点对点的实时数据传输,导致众多垃圾数据传送到大数据平台以及不能及时断点续传、数据丢失的方案,由于在本发明实施例提供的技术方案中,仅传输各日志文件新增的记录,因此避免了垃圾数据的传送;同时,由于在本发明实施例提供的技术方案中还保存了各日志文件以及新增的记录,使得原日志文件以及上传的记录变化都是可以查询获知的,当需要进行断点续传或者重传丢失的数据时,查询获取相应的数据重传即可,克服了现有技术不能及时断点续传、以及数据丢失的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中日志采集装置的结构示意图;
图2为本发明实施例中传输服务监控模块的实施流程示意图;
图3为本发明实施例中日志监控模块的实施流程示意图;
图4为本发明实施例中数据传输服务模块的实施流程示意图;
图5为本发明实施例中数据传输流示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410742374.0/2.html,转载请声明来源钻瓜专利网。