[发明专利]实时流数据的存储方法及装置在审

申请号：	201710224721.4	申请日：	2017-04-07
公开（公告）号：	CN108694187A	公开（公告）日：	2018-10-23
发明（设计）人：	胡信	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京鼎佳达知识产权代理事务所(普通合伙) 11348	代理人：	王伟锋;刘铁生
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实时流解析结果存储数据条信息处理技术分布式数据查询操作查询系统查询性能查询引擎实时系统预设数据条数解析写入访问
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种实时流数据的存储方法及装置，涉及信息处理技术领域，主要目的是解决由实时系统传来的一条条数据所产生大量的parquet文件，会导致查询系统在进行查询操作时，访问所有的parquet文件，影响查询性能的问题。技术方案包括：接收实时流数据；对所述实时流数据进行解析，得到解析结果；根据所述解析结果，确定所述实时流数据的数据条数；判断所述实时流数据的数据条数是否达到预设数据条数；如果是，则将所述实时流数据的解析结果写入分布式数据查询引擎。主要用于实时流数据的存储。

技术领域

本发明涉及信息处理技术领域，尤其涉及一种实时流数据的存储方法及装置。

背景技术

随着信息处理逐渐向大数据处理方向发展，一种适用于大数据查询的新的分布式数据查询引擎Impala已经进入人们的视野。Impala可以提供结构化查询语言结构SQL的定义，并且在实时获取到的数据流经过解析后，能够将实时数据存储在Impala中。

目前，现有的在实时系统传来数据流时，每传来一条数据，就会将数据存储进Impala中，并生成这条数据的parquet文件，依次地，每当传来一条数据进行存储后就会产生一个parquet文件，由实时系统传来的一条条数据所产生大量的parquet文件，会导致查询系统在进行查询操作时，访问所有的parquet文件，影响查询性能，从而降低查询的效率。

发明内容

鉴于上述问题，提出了本发明以便提供一种实时流数据的存储方法及装置，主要目的是解决由实时系统传来的一条条数据所产生大量的parquet文件，会导致查询系统在进行查询操作时，访问所有的parquet文件，影响查询性能的问题。

借由上述技术方案，本发明提供的一种实时流数据的存储方法，包括：

接收实时流数据；

对所述实时流数据进行解析，得到解析结果；

根据所述解析结果，确定所述实时流数据的数据条数；

判断所述实时流数据的数据条数是否达到预设数据条数；

如果是，则将所述实时流数据的解析结果写入分布式数据查询引擎。

进一步地，所述判断所述实时流数据的数据条数未达到预设数据条数之后，所述方法还包括：

判断首次接收到所述实时流数据的时间到当前时间所经过的时间是否达到预设时间间隔，或者，判断自上次数据写入所述分布式数据查询引擎的时间到当前时间所经过的时间是否达到预设时间间隔；

如果是，则将所述实时流数据的解析结果写入分布式数据查询引擎。

进一步地，所述方法还包括：