[发明专利]一种基于全内存计算对流数据进行查询的方法和设备有效
申请号: | 202010189737.8 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111414387B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 刘睿民 | 申请(专利权)人: | 威讯柏睿数据科技(北京)有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2453 |
代理公司: | 北京睿博行远知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 100095 北京市海淀区高里*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 内存 计算 对流 数据 进行 查询 方法 设备 | ||
本发明公开了一种基于全内存计算对流数据进行查询的方法和设备,该方法包括:接收用户发出的数据查询请求,根据数据查询请求从流数据的流处理过程的事件窗口中确定查询结果,其中,流处理过程为流适配进程和流连接进程,事件窗口为流连接进程中对流数据进行接收与累积的窗口,然后向用户返回查询的结果,通过应用本申请的技术方案能够查询实时的流数据并且能显著提高对流数据进行查询的响应速度和处理效率。
技术领域
本申请涉及实时流数据处理领域,更具体地,涉及一种基于全内存计算对流数据进行查询的方法和设备。
背景技术
流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合,应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。
现有技术中对数据的处理主要分为批处理和微批处理两种方式。
基于磁盘的批处理技术主要用于对历史数据的处理,也就是对“静止”数据的管理和操作,主要操作大容量、有界、持久存储的静态数据集,这种处理方式在面向流数据时存在以下不足:首先,处理的数据是有界的,即处理的数据量是有限的,仅限于有限的数据集合,不适用于无界的流数据进行操作;其次,批处理严重依赖持久存储,每个任务都需要多次执行读取和写入操作,与磁盘进行频繁交互,且数据处理时受到一定的时间节点或数据规模限制,并在计算过程完成后返回计算结果,因此查询性能较低、响应速度较慢,处理性能上总存在较大延迟,而且随着数据量不断增长,延迟还会持续增加。
为了提升流数据的处理效率,以微批处理的方式来模拟流处理对持续数据流进行处理。尽管延迟有大幅降低,但处理数据量的有界性仍未能解决,难以满足流数据实时(或接近实时)的处理和分析要求,尤其是在数据量较大且持续增加的情况下,延迟会愈加明显。
由此可知,现有技术中对流数据进行查询时存在只能查询有界的数据,响应速度较慢,处理效率低的问题。
发明内容
针对现有技术中对流数据进行查询时存在只能查询有界的数据,响应速度慢,处理效率低的问题,本发明提供了一种基于全内存计算对流数据进行查询的方法,应用于包括多个并行连接的内存数据库的内存系统中,该方法包括:
接收用户发出的数据查询请求;
根据所述数据查询请求从流数据的流处理进程的事件窗口中确定查询结果,所述流处理进程具体为流适配进程和流连接进程,所述事件窗口为所述流连接进程中对所述流数据进行接收与累积的窗口;
向所述用户返回所述查询结果。
优选地,在接收用户发出的数据查询请求之前,还包括:
基于监听流数据事件获取包含所述流数据的数量的通知,所述流数据事件是当所述流数据进入所述内存系统时触发的;
根据所述通知建立与所述数量匹配的所述流处理进程;
基于所述流适配进程将所述流数据按预设格式写入预设命名管道,所述流适配进程与所述命名管道一一对应;
基于所述事件窗口对所述命名管道中的流数据进行接收与累积,所述事件窗口是与所述流处理进程同步建立的。
优选地,在向所述用户返回所述查询结果之后,还包括:
将所述查询结果中的数据进行删除或存储。
优选地,,所述预设格式为逗号分隔值CSV格式,所述命名管道为Linux命名管道。
优选地,当不存在进入所述内存系统的流数据时,关闭所述事件窗口。
相应的,本发明还提供了一种基于全内存计算对流数据进行查询的设备,应用于包括多个并行连接的内存数据库的内存系统中,该设备包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于威讯柏睿数据科技(北京)有限公司,未经威讯柏睿数据科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010189737.8/2.html,转载请声明来源钻瓜专利网。