[发明专利]一种基于Kafka和SQL的数据查询方法在审
| 申请号: | 201910178040.8 | 申请日: | 2019-03-08 |
| 公开(公告)号: | CN109977138A | 公开(公告)日: | 2019-07-05 |
| 发明(设计)人: | 万敏;陈小游;蔡巍伟 | 申请(专利权)人: | 浙江新再灵科技股份有限公司 |
| 主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/242;G06F16/2458 |
| 代理公司: | 杭州天昊专利代理事务所(特殊普通合伙) 33283 | 代理人: | 董世博 |
| 地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据查询 构造器 结构化数据协议 非结构化数据 定位方式 数据协议 扁平化 粗定位 机构化 时间戳 细定位 构建 内置 字段 查询 分配 优化 | ||
本发明公开了一种基于Kafka和SQL的数据查询方法,包括以下步骤:采用基于时间戳的定位方式对数据进行定位,分别对数据进行粗定位和细定位;采用非结构化数据协议,根据不同的数据协议分配不同的机构化构造器,通过构造器将数据扁平化,构建出表,增加内置的三个字段,结构化数据协议;以SQL形式进行数据查询。采用本发明实施例的方法使得在Kafka中查询某一条数据的时间由小时级优化至亚秒级甚至秒级。
技术领域
本发明属于大数据技术领域,具体涉及一种基于Kafka和SQL的数据查询方法。
背景技术
近年来,伴随着物联网和互联网+概念的推动,数据量从GB升为TB甚至PB,由此大数据技术在国内有了突飞猛进的发展,被广泛认可的Hadoop,后来居上的Spark等层出不穷的技术框架出现在大数据领域。与此同时,Kafka作为分布式消息队列,可以对海量数据起到中间缓冲的作用,在大数据众多技术框架中占据了不可撼动的地位,每天几十亿的数据流过Kafka是很常见的场景。
Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中所有的动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
在实际应用中,Kafka在debug和运维场景下,Kafka原生的支持显得很无力,查询数据只能低效率的从头开始遍历,数据量太大导致无法精准定位出具有某一条特征的数据等,都是会经常遇到的问题。探索运用高效率算法结合Kafka本身提供的技术特性来实现快速数据查询系统,并结合数据结构化查询语言SQL(结构化查询语言,Structured QueryLanguage),将原本在Kafka中查询某一条数据的时间由小时级优化至亚秒级甚至秒级,将原本复杂的数据筛选统计优化为灵活的SQL表达式,为大数据的debug和运维提供技术工具支撑。
针对Kafka的SQL查询功能,Confluentinc公司推出了KSQL系统,主要的系统特性及标签为分布式和实时,KSQL通过分布式的计算引擎,将Kafka数据实时接入消费,客户端通过SQL可以实时查询到Kafka的数据和聚合结果。该技术方案缺点在于:该方案立足于分布式计算引擎,最大的缺点就是复杂,当需要使用KSQL,那么不仅需要把KSQL系统部署在Kafka集群的各个节点上,还需要把Ksql的数据接入引擎Kafka-stream部署在Kafka集群的各个节点,这意味着需要同时维护3个集群。
发明内容
本发明要解决的技术问题是提供一种基于Kafka和SQL的数据查询方法,使得在Kafka中查询某一条数据的时间由小时级优化至亚秒级甚至秒级。
为解决上述技术问题,本发明采用如下的技术方案:
一种基于Kafka和SQL的数据查询方法,包括以下步骤:
采用基于时间戳的定位方式对数据进行定位,分别对数据进行粗定位和细定位;
采用非结构化数据协议,根据不同的数据协议分配不同的机构化构造器,通过构造器将数据扁平化,构建出表,增加内置的三个字段,结构化数据协议;
以SQL形式进行数据查询。
优选地,采用基于时间戳的定位方式对数据进行定位,分别对数据进行粗定位和细定位具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江新再灵科技股份有限公司,未经浙江新再灵科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910178040.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据查询方法和装置
- 下一篇:基于类结构化查询语句的数据处理方法和装置





