[发明专利]基于分级复用的日志数据流的查询共享方法和系统有效
申请号: | 201710320562.8 | 申请日: | 2017-05-09 |
公开(公告)号: | CN107193898B | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 张进东;孙毓忠 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/14 |
代理公司: | 11006 北京律诚同业知识产权代理有限公司 | 代理人: | 祁建国;梁挥<国际申请>=<国际公布>= |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 共享 日志 元组 查询操作 查询语句 数据流 中间结果 子查询 截取 存储 预处理 查询 查询存储 查询结果 分级复用 共享队列 滑动窗口 计算资源 快速索引 数据共享 有效存储 中间存储 谓词 抽取 迁移 保证 | ||
本发明涉及一种基于分级复用的日志数据流的查询共享方法和系统,包括:将包含多个查询语句的查询操作注册到系统,通过设定滑动窗口对日志数据流中的元组进行截取;对多个该查询语句进行预处理,提取其中具有相同子查询的查询语句,并将其所查询结果作为中间结果加以存储,该中间结果用以在多个查询操作间进行共享;从所截取元组中提取具有相同中间存储结构的元组,并将其采用共享队列的方式加以存储以在多个查询操作间进行共享。本发明针对日志流查询存储共享,保证对日志流元组的数据进行有效存储、快速索引的前提下,也为数据共享情况下的迁移提供了灵活性;针对子查询共享,通过对相同谓词查询的抽取和共享,达到计算资源共享的目的。
技术领域
本发明涉及日志数据流的查询和存储领域,特别涉及一种基于分级复用的日志数据流的查询共享方法和系统。
背景技术
随着云计算和大数据技术的不断发展和广泛应用,集群中的日志数据越来越被重视。而集群中的这种简单的日志数据一方面同传统的日志数据相同,在系统的运行过程中也需要做相应的存储,以便于系统异常的运维和恢复,另一方面,集群中的日志数据在产生方式上又不同于传统的日志形式,是以一种数据流的方式在系统中产生。
日志数据流(以下简称日志流)的处理不同于传统数据流,在处理传统数据流时,有限的存储空间内无法存储无限日志流的全部数据,因此数据流上的查询多数在处理后丢弃,数据流上的查询多数得到近似的查询结果,也不同于传统数据库的查询,这种查询能够得到精确的查询结果。日志流具有以下特点:日志流是连续不断的按时间顺序实时产生的,系统无法控制集群中日志流元素的到达顺序;从系统中整个日志产生过程来看,日志流中的数据是无界的,在日志流上做查询得到的结果也是数据流;日志流查询的结果是精确的查询结果,系统要能保存日志流全部数据的一个有限子集或统计数据,并随着日志流上新数据的到来不断更新,更新的频率取决于集群中日志数据产生的速度,因此在应用上有很高的实时性要求。
对于日志数据的查询,通常采用以下技术:当数据规模较小时,直接采用 Linux的工具进行人工查看和手工处理,效率低下;当数据规模较大时,引入数据库,随着数据量的不断增大,单机处理无法满足流式日志数据的处理;对于海量日志查询,使用分布式文件系统存储海量日志文件信息,利用分布式计算对日志数据进行处理。
上面的查询方法极少满足云计算和大数据的分布式集群结构中的实时处理,专利201310541236.1提出了在多个计算节点之间的存储资源共享,该方法提出了一种缓解服务端数据库访问压力的方法和装置,该方法包括:查询服务端数据库中的应用的版本信息并复制到共享内存中;接收来自客户端的包含应用名称和应用的版本信息的应用更新查询请求;查询共享内存,判断共享内存中是否有对应的应用的记录,有则通过对比应用的版本信息确定应用更新查询请求所对应的应用是否需要更新,过滤掉不需要更新的应用;向服务端数据库查询需要更新的应用的更新相关信息,并返回给客户端。该发明的技术方案,由于在服务端数据库的前端设置了共享内存,利用共享内存的作用过滤掉其实不需要更新的应用的查询请求,从而实际查询服务端数据库的请求数量都是有效的请求,这大大减小了服务端数据库的访问压力,但这一过程中涉及到大量的数据复制或迁移,数据的一致性和实效性很难权衡,并且如果因为业务请求数据的不同,需要大量数据的换入换出共享内存,无疑增加系统的压力。
专利201480075283.4提出了在多个计算节点上运行相应的存储共享代理,所述存储共享代理在通信网络上相互通信;在给定的计算节点上运行一个或多个访问存储页面的本地虚拟机(VM);以及使用所述存储共享代理,将由所述本地VM访问的存储页面储存在所述计算节点中的至少两个计算节点上,并将所储存的存储页面供应给所述本地VM。该发明的技术方案,仅将数据的存储和访问做了分级,增加了系统的可靠性,但是对于在处理流式数据和查询共享上以及在数据处理的实效性上没有任何优势。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710320562.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:窗口调整的方法和装置
- 下一篇:智能可调高压泵站系统