[发明专利]基于Spark的Kafka消费并发处理方法及装置在审
| 申请号: | 201910857602.1 | 申请日: | 2019-09-09 |
| 公开(公告)号: | CN110618860A | 公开(公告)日: | 2019-12-27 |
| 发明(设计)人: | 周朝卫 | 申请(专利权)人: | 中盈优创资讯科技有限公司 |
| 主分类号: | G06F9/48 | 分类号: | G06F9/48 |
| 代理公司: | 11127 北京三友知识产权代理有限公司 | 代理人: | 周晓飞;谷敬丽 |
| 地址: | 100872 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 切片 分区 并发处理 并行执行 并发 | ||
1.一种基于Spark的Kafka消费并发处理方法,其特征在于,包括:
对Kafka的每个Topic分区进行切片,获得每个Topic分区的多个切片;
确定每个Topic分区的每个切片对应的Spark任务,其中,每个切片对应的Spark任务用于消费该切片中数据;
并行执行每个Topic分区的多个切片对应的多个Spark任务。
2.如权利要求1所述的基于Spark的Kafka消费并发处理方法,其特征在于,对Kafka的每个Topic分区进行切片,包括:
确定每个Topic分区的Kafka待消费数据范围,所述Kafka待消费数据范围包括消费偏移量范围和/或时间戳范围;
根据每个Topic分区的Kafka待消费数据范围,对Kafka的每个Topic分区进行切片。
3.如权利要求2所述的基于Spark的Kafka消费并发处理方法,其特征在于,根据每个Topic分区的Kafka待消费数据范围,对Kafka的每个Topic分区进行切片,包括:
确定每个Topic分区的Kafka待消费数据范围和并发度;
根据每个Topic分区的Kafka待消费数据范围和并发度,确定每个Topic分区的切片数;
根据每个Topic分区的Kafka待消费数据范围和切片数,确定每个Topic分区的每个切片的Kafka待消费数据范围;
根据每个Topic分区的每个切片的Kafka待消费数据范围,对每个Topic分区进行切片。
4.如权利要求3所述的基于Spark的Kafka消费并发处理方法,其特征在于,在根据每个Topic分区的Kafka待消费数据范围和并发度,确定每个Topic分区的切片数之前,还包括:
确定每个切片的最大消费记录数;
根据每个Topic分区的Kafka待消费数据范围,确定每个Topic分区的消费总记录数;
根据每个Topic分区的Kafka待消费数据范围和并发度,确定每个Topic分区的切片数,包括:
根据每个Topic分区的消费总记录数、并发度以及每个切片的最大消费记录数,确定每个Topic分区的切片数。
5.如权利要求4所述的基于Spark的Kafka消费并发处理方法,其特征在于,根据每个Topic分区的Kafka待消费数据范围和切片数,确定每个Topic分区的每个切片的Kafka待消费数据范围,包括:
根据每个Topic分区的切片数和消费总记录数,确定每个切片的消费记录数;
根据每个Topic分区的Kafka待消费数据范围和切片数,以及每个切片的消费记录数,确定每个Topic分区的每个切片的Kafka待消费数据范围。
6.如权利要求3所述的基于Spark的Kafka消费并发处理方法,其特征在于,还包括:
根据Kafka的历史消费数据记录,确定每个Topic分区的并发度,所述Kafka的历史消费数据记录包括历史消费数据量、历史消费时长、历史资源利用率、历史并发度数据积压量中的其中一种或任意组合。
7.如权利要求3所述的基于Spark的Kafka消费并发处理方法,其特征在于,还包括:
若Kafka待消费数据范围为消费偏移量范围,根据消费限速参数和Kafka生产端的最大消费偏移量,确定每个Topic分区的消费偏移量范围,所述消费限速参数用于确定每个Topic分区消费的最大记录数。
8.如权利要求1所述的基于Spark的Kafka消费并发处理方法,其特征在于,在确定每个Topic分区的每个切片对应的Spark任务之后,还包括:
将Kafka的待消费数据映射至Spark的表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中盈优创资讯科技有限公司,未经中盈优创资讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910857602.1/1.html,转载请声明来源钻瓜专利网。





