[发明专利]一种SparkSQL在线优化方法和装置在审
申请号: | 202111413197.8 | 申请日: | 2021-11-25 |
公开(公告)号: | CN116186069A | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 辛锦瀚;喻之斌;陈超;黄世鑫;苏子浩;郭伟钰;曾思棋;李惠娟;杨永魁;王峥 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/242;G06N7/01;G06F18/2135 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏;朱伟军 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 sparksql 在线 优化 方法 装置 | ||
本发明公开了一种Spark SQL在线优化方法和装置。该方法利用贝叶斯优化在Spark SQL上执行待优化配置参数的迭代搜索,包括:通过与贝叶斯迭代搜索过程进行交互收集参数样本,获得样本数据集,其中每个样本数据包括迭代过程使用的配置参数和各个query的执行时间;针对所述样本数据集,根据参数重要程度进行参数降维,并将降维后的样本数据集输入到贝叶斯优化过程中,用于高斯过程的建模,以确定应用程序的执行时间与参数样本之间的关联关系。本发明实现了低成本、深层次且高性能的调参优化,能够实现从底层的Spark引擎到上层的Spark SQL的整体在线优化。
技术领域
本发明涉及计算机技术领域,更具体地,涉及一种Spark SQL在线优化方法和装置。
背景技术
Spark SQL(结构化查询语言)基于Spark构建,可以实现高性能的结构化数据处理。与Spark RDD API不同,Spark SQL接口为Spark提供了更多关于数据结构和正在执行的计算的信息。因此在OLAP(联机分析处理)等场景中得到了广泛的应用。Spark SQL应用程序是一个执行单元,通常由许多查询(query)组成,Spark SQL框架将每个查询转换成一个DAG(有向无环图),然后将DAG分解成由一组并行任务组成的stage(阶段)集合。每个任务对应一个应用程序的分区计算部分结果。每个阶段可能依赖于存储在RDD中的称为沿袭的其他阶段。随后,Spark的DAG调度器将每个阶段的任务调度给多个executor(执行器)并行执行。这种并行性由几个配置参数控制。例如,在Yarn模式下,参数spark.executor.instances指定executor的数量,参数spark.executor.cores指定每个executor使用的核数。executor数量与每个executor的核数的乘积决定了Spark SQL集群一次可执行的最大任务数。经分析,一个Spark SQL应用的行为由200多个配置参数控制,这些配置参数一般分为两个级别:Spark SQL内部配置(上层)和Spark运行时配置(下层)。上层配置用于指定Spark SQL应用的属性,如shuffle行为、join broadcast等。例如,spark.sql.autoBroadcastJoinThreshold以字节为单位确定将在执行连接时广播给所有工作节点的表的最大大小,这可能显著影响连接性能。下层配置指定了Spark核心的14个方面,如内存管理和执行行为。例如,spark.executor.cores和spark.executor.instances控制了计算并行度,这也显著影响了Spark SQL应用程序的性能。因此Spark SQL参数调优非常必要,并且上层配置可能与下层配置以一种复杂的方式交互,这使得调优Spark SQL参数调优变得非常困难。
现有的参数调优方法主要包括:1)基于规则的调优技术,通过调优指导手册、专家经验和在线教程来进行调优;2)基于性能模型的调优技术,通过对Spark SQL进行性能建模,再基于性能模型进行最优参数搜索;3)基于模拟的调优技术,通过设计Spark SQL模拟器对Spark SQL在不同参数下的性能进行模拟,进而搜索得到最优参数;4)基于实验的调优技术,需要进行多次实验,且每次实验使用不同的参数执行待优化Spark SQL应用程序,直至找到最优参数;5)基于机器学习算法的调优技术,利用机器学习算法对最优参数进行预测或建立性能预测模型结合搜索算法找到最优参数;6)自适应调优技术,在线地对待优化Spark SQL程序进行优化,并根据动态变化环境来动态调整优化策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111413197.8/2.html,转载请声明来源钻瓜专利网。